数据为王

数据为王
关于大数据的那些事儿

标签关键词

关于 Spark 的文章共有36条

Spark

Spark History Server配置使用

阅读(178)评论(0)

Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历...

Spark

Spark中的Application、SparkSession、SparkContext、RDD及其拓展

阅读(222)评论(0)

接触 Spark 的时候容易产生这样的疑惑,RDD 是什么,SparkContext 是什么,SparkSession 又是什么... 它们之间又是什么关系?简介先来个简单的一图流:再来个粗暴的一句话描述:Application:用户编写的Spark应用程序,Driver 即运行上述 Application 的 main() 函数并且创建 SparkCont...

Spark

Spark核心技术原理透视二(Spark运行模式)

阅读(292)评论(0)

上一章节详细讲了Spark的运行原理,没有关注的童鞋可以关注加米谷大数据查看上一章节的详细内容。通过Spark运行原理的讲解大家了解了Spark在底层的运行,那Spark的运行模式又是什么样的呢?通过本文以下的讲解大家可以详细的学习了解。1、Spark运行模式主要分为以下几种,如图所示。2、Spark on Standalone 模式Standalone模式...

机器学习

Spark机器学习API之特征处理(二)

阅读(181)评论(0)

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和...

机器学习

Spark机器学习API之特征处理(一)

阅读(269)评论(0)

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和...

Spark

Spark核心技术原理透视一(Spark运行原理)

阅读(174)评论(0)

原文出处:http://dtinone.com/article/spark-he-xin-ji-shu-yuan-li-tou-shi-yi-spark-yun-xing-yuan-li-在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。...

Spark

spark mllib和ml类里面的区别

阅读(382)评论(0)

mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象,就可以使用NaiveBayesModel.pred...

Spark

Spark RDD、DataFrame和DataSet的区别

阅读(399)评论(0)

RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.s...

Spark

Spark RDD、DataFrame、DataSet区别和联系

阅读(715)评论(0)

左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFrame是分布式...