数据为王

数据为王
关于大数据的那些事儿

标签关键词

关于 sparkSQL 的文章共有9条

Spark

Spark分析窗口函数

阅读(975)评论(0)

Spark1.4发布,支持了窗口分析函数(window functions)。在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,使用方式如下:1、初始化数据创建表create table window_test2 ...

Spark

【原创】Spark1.5.0升级到2.0.0需要注意的问题

阅读(5872)评论(2)

在spark1.5.0环境下编译好的作业在spark2.0.0环境下运行后出现的问题当spark升级到2.0.0后,spark对应的其他组件版本也要同步升级到适配版本,包含但不限定以下hadoop-2.7.2hbase-1.2.2hive-2.1.0spark2.0.0默认编译环境为:scala-2.11.8jdk-1.8.0所以需要把scala和jdk都升...

SparkSQL

通过自定义SparkSQL外部数据源实现SparkSQL读取HBase

阅读(636)评论(0)

摘要SparkSQL默认不支持hbase数据源, 可以通过自定义外部数据源(External DataSource)的方式来访问hbase. 本文在http://lxw1234.com/archives/2015/07/332.htm的代码基础上作少许改进.包: sparksql.hbaseHBaseRelation.scalapackage&nb...

Spark

Apache Spark 1.6发布

阅读(558)评论(0)

今天我们非常高兴能够发布Apache Spark 1.6,通过该版本,Spark在社区开发中达到一个重要的里程碑:Spark源码贡献者的数据已经超过1000人,而在2014年年末时人数只有500。那么,Spark 1.6有什么新特性呢?Spark 1.6有逾千个补丁。在本博文中,我们将重点突出三个主要的开发主题:性能提升、新的DataSet API和数据科学...

SparkSQL

Spark SQL 官方文档-中文翻译

阅读(1840)评论(0)

1 概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。2 DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可...

SparkSQL

华为开源Astro(SparkSQL On HBase)试用

阅读(947)评论(0)

华为最近开源的SparkSQL On HBase,又名Astro,整合了Spark、SparkSQL、HBase,是继Phoenix后,SQL On HBase的又一利器。至于实际用起来怎么样,先试验一把。开源项目地址:https://github.com/Huawei-Spark/Spark-SQL-on-HBase下载源码,解压。cd Spark-SQL...

SparkSQL

SparkSQL读取HBase数据,通过自定义外部数据源

阅读(2253)评论(0)

SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0,简单介绍SparkSQL自定义外部数据源,访问HBase表。在HBase中表如下:create 'lxw1234',{NAME => 'f1',VERSIONS => 1},{N...

SparkSQL

【原创】spark sql 基础(持续更新-宋亚飞)

阅读(4036)评论(0)

以下内容是我对apache spark官网翻译总结,如有错误之处,敬请提出,感激不尽。 SparkSQL初始化 Java APISparkConf sparkConf = new SparkConf().setAppName("JavaSparkSQL"); JavaSparkContext c...

SparkSQL

Spark SQL 初探: 使用大数据分析2000万数据

阅读(968)评论(0)

      去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berkeley AMP lab所开...