数据为王

数据为王
关于大数据的那些事儿

Spark

这家伙很懒,还没填写该栏目的介绍呢~

Spark

Spark History Server配置使用

阅读(157)评论(0)

Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历...

Spark

Spark中的Application、SparkSession、SparkContext、RDD及其拓展

阅读(198)评论(0)

接触 Spark 的时候容易产生这样的疑惑,RDD 是什么,SparkContext 是什么,SparkSession 又是什么... 它们之间又是什么关系?简介先来个简单的一图流:再来个粗暴的一句话描述:Application:用户编写的Spark应用程序,Driver 即运行上述 Application 的 main() 函数并且创建 SparkCont...

Spark

Spark核心技术原理透视二(Spark运行模式)

阅读(254)评论(0)

上一章节详细讲了Spark的运行原理,没有关注的童鞋可以关注加米谷大数据查看上一章节的详细内容。通过Spark运行原理的讲解大家了解了Spark在底层的运行,那Spark的运行模式又是什么样的呢?通过本文以下的讲解大家可以详细的学习了解。1、Spark运行模式主要分为以下几种,如图所示。2、Spark on Standalone 模式Standalone模式...

Kafka

Kafka OffsetMonitor:监控消费者和延迟的队列

阅读(236)评论(0)

一个小应用程序来监视kafka消费者的进度和它们的延迟的队列。KafkaOffsetMonitor是用来实时监控Kafka集群中的consumer以及在队列中的位置(偏移量)。你可以查看当前的消费者组,每个topic队列的所有partition的消费情况。可以很快地知道每个partition中的消息是否很快被消费以及相应的队列消息增长速度等信息。这些可以de...

Spark

Spark核心技术原理透视一(Spark运行原理)

阅读(164)评论(0)

原文出处:http://dtinone.com/article/spark-he-xin-ji-shu-yuan-li-tou-shi-yi-spark-yun-xing-yuan-li-在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。...

Spark

spark mllib和ml类里面的区别

阅读(370)评论(0)

mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象,就可以使用NaiveBayesModel.pred...

Spark

Spark RDD、DataFrame和DataSet的区别

阅读(370)评论(0)

RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.s...

Spark

Spark RDD、DataFrame、DataSet区别和联系

阅读(643)评论(0)

左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFrame是分布式...

Spark

整合Kafka到Spark Streaming——代码示例和挑战

阅读(75)评论(0)

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅...