数据为王

数据为王
关于大数据的那些事儿

SparkSQL

这家伙很懒,还没填写该栏目的介绍呢~

SparkSQL

通过自定义SparkSQL外部数据源实现SparkSQL读取HBase

阅读(622)评论(0)

摘要SparkSQL默认不支持hbase数据源, 可以通过自定义外部数据源(External DataSource)的方式来访问hbase. 本文在http://lxw1234.com/archives/2015/07/332.htm的代码基础上作少许改进.包: sparksql.hbaseHBaseRelation.scalapackage&nb...

SparkSQL

Spark SQL 官方文档-中文翻译

阅读(1802)评论(0)

1 概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。2 DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可...

SparkSQL

华为开源Astro(SparkSQL On HBase)试用

阅读(934)评论(0)

华为最近开源的SparkSQL On HBase,又名Astro,整合了Spark、SparkSQL、HBase,是继Phoenix后,SQL On HBase的又一利器。至于实际用起来怎么样,先试验一把。开源项目地址:https://github.com/Huawei-Spark/Spark-SQL-on-HBase下载源码,解压。cd Spark-SQL...

SparkSQL

SparkSQL读取HBase数据,通过自定义外部数据源

阅读(2209)评论(0)

SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0,简单介绍SparkSQL自定义外部数据源,访问HBase表。在HBase中表如下:create 'lxw1234',{NAME => 'f1',VERSIONS => 1},{N...

SparkSQL

【原创】spark sql 基础(持续更新-宋亚飞)

阅读(3988)评论(0)

以下内容是我对apache spark官网翻译总结,如有错误之处,敬请提出,感激不尽。 SparkSQL初始化 Java APISparkConf sparkConf = new SparkConf().setAppName("JavaSparkSQL"); JavaSparkContext c...

SparkSQL

Spark SQL 初探: 使用大数据分析2000万数据

阅读(952)评论(0)

      去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berkeley AMP lab所开...