数据为王

数据为王
关于大数据的那些事儿

Hadoop

这家伙很懒,还没填写该栏目的介绍呢~

Hadoop

20万现金奖金,5万+真实交通事故数据,数据爱好者们能力变现的时候来了!

阅读(1155)评论(0)

报名链接亲爱的数据极客们,在你和无尽的bug斗争时,是否因为大材小用而痛苦,或者因为没有价值的项目而郁郁寡欢?But,擦亮眼睛,机会可是到处有!只要你愿意,可以随时加入真正有挑战、创造无限价值的数据竞赛,运用你的才智和技术,解决难题,斩获奖金。为了更深入地挖掘交通事故背后的诱因,带动公众关注交通安全,贵阳市公安交管局携手全国最大数据科学与创意竞赛平台Data...

Hive

Hive Configuration Table propertiesPermalink

阅读(422)评论(0)

Tables stored as ORC files use table properties to control their behavior. By using table properties, the table owner ensures that all clients store data with the same options.orc....

Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive

阅读(234)评论(0)

Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查询和处理性能有着非常大的提升,因为ORC较其他文件格式压缩比高,查询任务的输入数据...

Hive

Hive(二)优化总结

阅读(328)评论(0)

在介绍hive优化之前,首先要知道hive是什么。1.hive简介hive是基于hadoop的一哥数据仓库工具,可以将结构化的数据文件映射成一张完整的数据包,并提供完整的sql查询功能,可以将sql语句转化成mapreduce任务进行运行。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是...

Hive

hive join的三种优化方式

阅读(469)评论(0)

hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因为shuffle真的好令人担心啊,总之,就是各种问题都是由他产生的。下面介绍一下涉及hive在join的时候的优化方式。        第一:...

Hive

HIVE MapJoin异常问题处理总结

阅读(487)评论(0)

摘要: HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。问题描述在跑hive作业的时候,偶尔会遇到下面的异常 FAILED: Exec...

Hive

Hive中使用MAP JOIN

阅读(356)评论(0)

摘要: 1 概述 若所有表中只有一张小表,那可在最大的表通过Mapper的时候将小表完全放到内存中,Hive可以在map端执行连接过程,称为map-side join,这是因为Hive可以和内存的小表逐一匹配,从而省略掉常规连接所需的reduce过程。即使对于很小的数据集,这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程,而且有时...

Hadoop

大数据常见错误解决方案

阅读(1105)评论(0)

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to...

Hive

Hive 调优总结

阅读(514)评论(0)

一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;    默认值:strict&n...