数据为王

数据为王
关于大数据的那些事儿
Hive

HIVE MapJoin异常问题处理总结

阅读(536)评论(0)

摘要: HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。问题描述在跑hive作业的时候,偶尔会遇到下面的异常 FAILED: Exec...

Hive

Hive中使用MAP JOIN

阅读(439)评论(0)

摘要: 1 概述 若所有表中只有一张小表,那可在最大的表通过Mapper的时候将小表完全放到内存中,Hive可以在map端执行连接过程,称为map-side join,这是因为Hive可以和内存的小表逐一匹配,从而省略掉常规连接所需的reduce过程。即使对于很小的数据集,这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程,而且有时...

Hadoop

大数据常见错误解决方案

阅读(1268)评论(0)

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to...

Hive

Hive 调优总结

阅读(597)评论(0)

一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;    默认值:strict&n...

Hive

hive中重建新表插入报错

阅读(937)评论(0)

在hive中,会有这样一种情形:1、创建一个分区外部表A(比如A表有5个字段),并且向A表里指定的分区(比如dt=2017-08-30这个分区)里插入数据2、发现A表缺少一些字段,因为存在元数据不实时更新的问题,不想更新元数据,就进行删表重新建表B(表B与表A除了多了几个字段外,别的都一样)3、再执行hql脚本,把最新的字段样式的数据插入到dt=2017-0...

Hive

hive如何配置支持事务及insert、update、delete

阅读(483)评论(0)

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当...

Hive

开启hive事务注意事项

阅读(887)评论(0)

hive事务讲解hive0.14版本之后,开始支持事务。Hive中事务的引入,使hive支持行级别的ACID,读操作与写操作不会冲突。hive事务的限制条件1.在现在的版本中,只支持ORC文件格式。 2.默认情况下,hive的事务性是关闭的,开启需要设置transactional=true。 3.表必须是Bucket表。 4.外...