数据为王

数据为王
关于大数据的那些事儿

Hadoop

这家伙很懒,还没填写该栏目的介绍呢~

Hive

hive中重建新表插入报错

阅读(945)评论(0)

在hive中,会有这样一种情形:1、创建一个分区外部表A(比如A表有5个字段),并且向A表里指定的分区(比如dt=2017-08-30这个分区)里插入数据2、发现A表缺少一些字段,因为存在元数据不实时更新的问题,不想更新元数据,就进行删表重新建表B(表B与表A除了多了几个字段外,别的都一样)3、再执行hql脚本,把最新的字段样式的数据插入到dt=2017-0...

Hive

hive如何配置支持事务及insert、update、delete

阅读(485)评论(0)

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。一、Hive具有ACID语义事务的使用场景1. 流式接收数据。许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当...

Hive

开启hive事务注意事项

阅读(905)评论(0)

hive事务讲解hive0.14版本之后,开始支持事务。Hive中事务的引入,使hive支持行级别的ACID,读操作与写操作不会冲突。hive事务的限制条件1.在现在的版本中,只支持ORC文件格式。 2.默认情况下,hive的事务性是关闭的,开启需要设置transactional=true。 3.表必须是Bucket表。 4.外...

Hadoop

异构数据源海量数据交换工具-Taobao DataX 下载和使用

阅读(414)评论(0)

DataX介绍DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们拥有很多不同类型的数据库/文件系统(My...

Hive

hive-列转行和行转列

阅读(971)评论(0)

1. 假设我们在Hive中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aadd2badd3cadd4dadd5我们可以看到同一个用户不止一个地址(这里是假设的),我们需要把数据变为如下格式:idname...

Hadoop

Hue问题记录

阅读(1042)评论(0)

1、make的一开始如果报错:python2.4 /root/hue-master/tools/virtual-bootstrap/virtual-bootstrap.py-qq --no-site-packages /root/hue-master/build/env虽然/usr/bin/python已经是2.7版本,但是不知怎会调用到/usr/bin/p...

Hadoop

Parameters在Oozie的hive action中的使用

阅读(779)评论(0)

目标:从hive action中获取结果,传入下一个hive action现状:很不幸运,目前hive action不支持capture output实现:使用ssh action运行hive script获得output, 并将其传入hive actionDetail:ssh脚本去echo对应参数(key=value)echo "minDate=${min...

Hadoop

Oozie workflow如何在两个shell action之间传递参数

阅读(842)评论(0)

接触oozie时间并不长,半个月有余,对其十分好用的action管理模式以及各种工作流控制欲罢不能,可惜中文的文档真心少。上周发现了这样一个问题,虽然说oozie workflow很方便工作流的建立和控制,但是oozie的参数大多定义在job.properties中,然后一次性载入oozie环境中,在runtime下很难在各个action之间传递参数,所以相...