数据为王

数据为王
关于大数据的那些事儿

SparkStreaming

这家伙很懒,还没填写该栏目的介绍呢~

SparkStreaming

Spark Streaming和Kafka整合开发指南(一)

阅读(875)评论(0)

Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct API,这是使用低层次的KafkaAPI...

SparkStreaming

Spark Streaming和Kafka整合开发指南(二)

阅读(1042)评论(0)

在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。  和基于Receiver接收数据不一样,这种方式定期地从Kafka的to...

SparkStreaming

Spark Streaming编程讲解

阅读(1001)评论(0)

在看spark Streaming,我们需要首先知道什么是Spark streaming?Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行...

SparkStreaming

Spark Streaming实时计算框架介绍

阅读(719)评论(0)

        随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式...

SparkStreaming

论Spark Streaming的数据可靠性和一致性

阅读(856)评论(0)

摘要:Spark Streaming自发布起就得到了广泛的关注,然而作为一个年轻的项目,需要提升的地方同样很多,比如1.2之前版本driver挂掉可能会丢失数据。这里将分析它的可靠性机制。眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目,其从一诞生就受到广泛关注并迅速发展,目前已有追赶并...

SparkStreaming

Storm与Spark Streaming比较

阅读(935)评论(0)

Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,...

SparkStreaming

使用 Kafka 和 Spark Streaming 构建实时数据处理系统

阅读(570)评论(0)

        本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。引言在很多领域,如股市走向分析, 气象...