数据为王

数据为王
关于大数据的那些事儿

Hive

这家伙很懒,还没填写该栏目的介绍呢~

Hive

Hive Configuration Table propertiesPermalink

阅读(477)评论(0)

Tables stored as ORC files use table properties to control their behavior. By using table properties, the table owner ensures that all clients store data with the same options.orc....

Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive

阅读(255)评论(0)

Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查询和处理性能有着非常大的提升,因为ORC较其他文件格式压缩比高,查询任务的输入数据...

Hive

Hive(二)优化总结

阅读(350)评论(0)

在介绍hive优化之前,首先要知道hive是什么。1.hive简介hive是基于hadoop的一哥数据仓库工具,可以将结构化的数据文件映射成一张完整的数据包,并提供完整的sql查询功能,可以将sql语句转化成mapreduce任务进行运行。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是...

Hive

hive join的三种优化方式

阅读(518)评论(0)

hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因为shuffle真的好令人担心啊,总之,就是各种问题都是由他产生的。下面介绍一下涉及hive在join的时候的优化方式。        第一:...

Hive

HIVE MapJoin异常问题处理总结

阅读(536)评论(0)

摘要: HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。问题描述在跑hive作业的时候,偶尔会遇到下面的异常 FAILED: Exec...

Hive

Hive中使用MAP JOIN

阅读(439)评论(0)

摘要: 1 概述 若所有表中只有一张小表,那可在最大的表通过Mapper的时候将小表完全放到内存中,Hive可以在map端执行连接过程,称为map-side join,这是因为Hive可以和内存的小表逐一匹配,从而省略掉常规连接所需的reduce过程。即使对于很小的数据集,这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程,而且有时...

Hive

Hive 调优总结

阅读(597)评论(0)

一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;    默认值:strict&n...

Hive

hive中重建新表插入报错

阅读(937)评论(0)

在hive中,会有这样一种情形:1、创建一个分区外部表A(比如A表有5个字段),并且向A表里指定的分区(比如dt=2017-08-30这个分区)里插入数据2、发现A表缺少一些字段,因为存在元数据不实时更新的问题,不想更新元数据,就进行删表重新建表B(表B与表A除了多了几个字段外,别的都一样)3、再执行hql脚本,把最新的字段样式的数据插入到dt=2017-0...

Hive

hive如何配置支持事务及insert、update、delete

阅读(483)评论(0)

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当...