数据为王

数据为王
关于大数据的那些事儿

标签关键词

关于 kafka 的文章共有14条

Spark

整合Kafka到Spark Streaming——代码示例和挑战

阅读(75)评论(0)

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅...

Kafka

Ganglia监控Flume、Kafka、Storm

阅读(1821)评论(0)

背景通常利用Flume、Kafka、Storm来搭建实时的日志分析系统,那如何对这一系统运行状态进行监控呢?赶快调研一下,看看业内其他人怎么做的监控,当前能够查到的唯品会工程师Yaobaniu对外分享的实时日志分析平台材料,初步可以推断其使用Zabbix进行的监控,因为baniu在PPTV工作时,主要工作就是专注利用Zabbix进行集群监控,并且在baniu...

SparkStreaming

Spark Streaming和Kafka整合开发指南(一)

阅读(875)评论(0)

Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct API,这是使用低层次的KafkaAPI...

SparkStreaming

Spark Streaming和Kafka整合开发指南(二)

阅读(1042)评论(0)

在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。  和基于Receiver接收数据不一样,这种方式定期地从Kafka的to...

Kafka

Kafka命令行常用命令说明

阅读(8975)评论(0)

基于0.8.0版本。 ##查看topic分布情况 kafka-list-topic.sh bin/kafka-list-topic.sh --zookeeper 192.168.197.170:2181,192.168.197.171:2181 (列出所有topic的分区情况) bin/kafka...

Kafka

kafka 操作常用命令及Java API操作方法

阅读(1075)评论(0)

使用Kafka的同学都知道,我们每次创建Kafka主题(Topic)的时候可以指定分区数和副本数等信息,如果将这些属性配置到server.properties文件中,以后调用Java API生成的主题将使用默认值,先改变需要使用命令bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topi...

Kafka

Kafka设计解析(三):Kafka High Availability (下)

阅读(509)评论(0)

Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka...

Kafka

Kafka设计解析(二):Kafka High Availability (上)

阅读(569)评论(0)

Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务。若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失。而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说,尤其当集群规模上升到一定程度后,一台或者多台机器宕机的可能性...