数据为王

数据为王
关于大数据的那些事儿

Hadoop

这家伙很懒,还没填写该栏目的介绍呢~

Hadoop

Oozie workflow工作流action间参数传递实现

阅读(696)评论(0)

假设workflow里有两个action节点,shell和Hive,hive需要用到shell节点里的值,shell脚本如下#!/bin/sh day=`date '+%Y%m%d%H'` echo "day:$day" hive节点需传入day这个参数。需要用到shell节点里<capture-output/>这个属性,如下&...

Hadoop

安装和配置Oozie

阅读(772)评论(0)

Oozie用于Hadoop的工作流配置;参考链接:《Install and Configure Apache Oozie Workflow Scheduler for CDH 4.X on RHEL/CentOS 6/5》http://www.tecmint.com/install-apache-oozie-for-cdh-in-centos/  ...

Hadoop

高可用Hadoop平台-Ganglia安装部署

阅读(335)评论(0)

1.概述最近,有朋友私密我,Hadoop有什么好的监控工具,其实,Hadoop的监控工具还是蛮多的。今天给大家分享一个老牌监控工具Ganglia,这个在企业用的也算是比较多的,Hadoop对它的兼容也很好,不过就是监控界面就不是很美观。下次给大家介绍另一款工具——Hue,这个界面官方称为Hadoop UI,界面美观,功能也比较丰富。今天,在这里主要给大家介绍...

Hadoop

Kafka集群搭建

阅读(361)评论(0)

1、软件环境1、linux一台或多台,大于等于22、已经搭建好的zookeeper集群,此步骤不做解释3、软件版本kafka_2.11-0.10.2.tgz2、创建目录并下载安装软件#创建目录 cd /opt/ mkdir kafka #创建项目目录 cd kafka mkdir kafkalogs #创建kafka消息目录,主要存放kafka消息 #下载...

Hadoop

Hadoop2的ResourceManager高可用配置

阅读(259)评论(0)

2.2.0出来以后关注了一些东西,比如2.2.0里面直接带了ResourceManager的高可用,这点比较吸引人。CDH自己出了一个解决方案,这次2.2的更新直接自己带了,还不错,这样就全了,Namenode有HA和Federation,RM也有了HA,而且也可以通过ZKFC自动做故障切换。直接记录配置 RM HA 的最小需求和配置项。跟NN的HA一样,R...

Hive

在 Apache Hive 中轻松生存的12个技巧

阅读(476)评论(0)

Hive 可以让你在 Hadoop 上使用 SQL,但是在分布式系统上优化 SQL 则有所不同。这里是让你可以轻松驾驭 Hive 的12个技巧。Hive 并不是关系型数据库(RDBMS),但是它大多数时候都表现得像是一个关系型数据库一样,它有表、可以运行 SQL、也支持 JDBC 和 ODBC。这种表现既有好的一面,也有不好的一面:Hive 并不像...