数据为王

数据为王
关于大数据的那些事儿

Spark

这家伙很懒,还没填写该栏目的介绍呢~

Kafka

Kafka剖析(一):Kafka背景及架构介绍

阅读(734)评论(0)

Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka...

SparkStreaming

使用 Kafka 和 Spark Streaming 构建实时数据处理系统

阅读(570)评论(0)

        本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。引言在很多领域,如股市走向分析, 气象...

Kafka

Kafka单机环境开发示例

阅读(602)评论(0)

在Kafka下载页面下载0.8版本,解压缩。1.修改config目录下的server.properties 里面的host.name为机器的ip。假如部署kafka和开发运行kafka例子为同一台机器,不用修改,用默认的localhost也行。2.修改config目录下的zookeeper.properties 里面的dataDir属性为你需要的目录。3.假...

Kafka

Apache Kafka:下一代分布式消息系统

阅读(584)评论(0)

简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时...

Kafka

Apache kafka原理与特性

阅读(629)评论(0)

前言: kafka是一个轻量级的/分布式的/具备replication能力的日志采集组件,通常被集成到应用系统中,收集"用户行为日志"等,并可以使用各种消费终端(consumer)将消息转存到HDFS等其他结构化数据存储系统中.因为日志消息通常为文本数据,尺寸较小,且对实时性以及数据可靠性要求不严格,但是需要日志存储端具备较高的数据吞吐能力,这种"宽松"的设...