数据为王

数据为王
关于大数据的那些事儿

标签关键词

关于 sparkstreaming 的文章共有12条

Spark

整合Kafka到Spark Streaming——代码示例和挑战

阅读(75)评论(0)

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅...

Spark

【原创】Spark1.5.0升级到2.0.0需要注意的问题

阅读(5720)评论(2)

在spark1.5.0环境下编译好的作业在spark2.0.0环境下运行后出现的问题当spark升级到2.0.0后,spark对应的其他组件版本也要同步升级到适配版本,包含但不限定以下hadoop-2.7.2hbase-1.2.2hive-2.1.0spark2.0.0默认编译环境为:scala-2.11.8jdk-1.8.0所以需要把scala和jdk都升...

Spark

浅谈Spark应用程序的性能调优

阅读(422)评论(1)

       Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下...

Spark

Spark on Yarn:性能调优

阅读(698)评论(0)

1. 调优经验应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。(1)配置项的使用熟悉Hadoop开发的同学应该...

Spark

Spark性能优化的10大问题及其解决方案

阅读(296)评论(0)

问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间长解决方式:设置spark.local.dir为多个磁盘...

SparkStreaming

Spark Streaming和Kafka整合开发指南(一)

阅读(875)评论(0)

Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct API,这是使用低层次的KafkaAPI...

SparkStreaming

Spark Streaming和Kafka整合开发指南(二)

阅读(1042)评论(0)

在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。  和基于Receiver接收数据不一样,这种方式定期地从Kafka的to...

SparkStreaming

Spark Streaming编程讲解

阅读(1001)评论(0)

在看spark Streaming,我们需要首先知道什么是Spark streaming?Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行...

SparkStreaming

Spark Streaming实时计算框架介绍

阅读(719)评论(0)

        随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式...