数据为王

数据为王
关于大数据的那些事儿

标签关键词

关于 hbase 的文章共有34条

Hbase

Apache Phoenix for Cloudera CDH

阅读(782)评论(0)

Apache Phoenix is a relational database layer over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Apache Phoenix takes your SQ...

SparkSQL

通过自定义SparkSQL外部数据源实现SparkSQL读取HBase

阅读(644)评论(0)

摘要SparkSQL默认不支持hbase数据源, 可以通过自定义外部数据源(External DataSource)的方式来访问hbase. 本文在http://lxw1234.com/archives/2015/07/332.htm的代码基础上作少许改进.包: sparksql.hbaseHBaseRelation.scalapackage&nb...

Spark

spark使用java读取hbase数据做分布式计算

阅读(1135)评论(0)

由于spark提供的hbaseTest是scala版本,并没有提供java版。我将scala版本改为java版本,并根据数据做了些计算操作。程序目的:查询出hbase满足条件的用户,统计各个等级个数。代码如下,西面使用的hbase是0.94注释已经写详细:package com.sdyc.ndspark.sys; import org.apache.c...

Hbase

MapReduce生成HFile入库到HBase

阅读(520)评论(0)

个人小站,正在持续整理中,欢迎访问:http://shitouer.cn小站博文地址:MapReduce生成HFile入库到HBase一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFo...

Hbase

HBase备份之导入导出

阅读(696)评论(0)

我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群,实现数据的实时备份。但是,HBase复制只对设置好复制以后的数据生效,也即,配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中,而对之前的历史数据,采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase的导入导出功能来实现历史数据的备份。1)将HBase表数据导出...

Hbase

HBase 5种写入数据方式

阅读(469)评论(0)

Version :hadoop1.2.1; hbaes0.94.16;HBase写入数据方式(参考:《HBase The Definitive Guide》),可以简单分为下面几种:1. 直接使用HTable进行导入,代码如下:package hbase.curd; import java.io.IOException; import j...

Hbase

HBase Rowkey的散列与预分区设计

阅读(496)评论(0)

HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一点点类似人群划分,...

Hive

PrestoDB 来自Facebook的开源分布式查询引擎

阅读(898)评论(0)

        Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。下图中展现了简化的Presto系统架构。客户端(client)将SQL查询发送...

Hbase

HBase快照(Snapshot)技术,hbasesnapshot

阅读(727)评论(0)

什么是快照快照就是一份元信息的合集,允许管理员恢复到表的先前状态。快照不是表的复制而是一个文件名称列表,因而不会复制数据。 完全快照恢复是指恢复到之前的“表结构”以及当时的数据,快照之后发生的数据不会恢复。快照的作用HBase中存在的备份或克隆表的方法就是使用复制/导出表或者在关闭表之后拷贝HDFS中的所有HFile。 复制或导出是通过一...