数据为王

数据为王
关于大数据的那些事儿

Spark

这家伙很懒,还没填写该栏目的介绍呢~

Spark

Spark的日志配置

阅读(408)评论(0)

在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的在Spark的conf目录下,把log4j.properties.template修改为...

Spark

【原创】Spark1.5.0升级到2.0.0需要注意的问题

阅读(5698)评论(2)

在spark1.5.0环境下编译好的作业在spark2.0.0环境下运行后出现的问题当spark升级到2.0.0后,spark对应的其他组件版本也要同步升级到适配版本,包含但不限定以下hadoop-2.7.2hbase-1.2.2hive-2.1.0spark2.0.0默认编译环境为:scala-2.11.8jdk-1.8.0所以需要把scala和jdk都升...

SparkSQL

通过自定义SparkSQL外部数据源实现SparkSQL读取HBase

阅读(615)评论(0)

摘要SparkSQL默认不支持hbase数据源, 可以通过自定义外部数据源(External DataSource)的方式来访问hbase. 本文在http://lxw1234.com/archives/2015/07/332.htm的代码基础上作少许改进.包: sparksql.hbaseHBaseRelation.scalapackage&nb...

Spark

spark使用java读取hbase数据做分布式计算

阅读(1085)评论(0)

由于spark提供的hbaseTest是scala版本,并没有提供java版。我将scala版本改为java版本,并根据数据做了些计算操作。程序目的:查询出hbase满足条件的用户,统计各个等级个数。代码如下,西面使用的hbase是0.94注释已经写详细:package com.sdyc.ndspark.sys; import org.apache.c...

Kafka

Ganglia监控Flume、Kafka、Storm

阅读(1813)评论(0)

背景通常利用Flume、Kafka、Storm来搭建实时的日志分析系统,那如何对这一系统运行状态进行监控呢?赶快调研一下,看看业内其他人怎么做的监控,当前能够查到的唯品会工程师Yaobaniu对外分享的实时日志分析平台材料,初步可以推断其使用Zabbix进行的监控,因为baniu在PPTV工作时,主要工作就是专注利用Zabbix进行集群监控,并且在baniu...

Spark

浅谈Spark应用程序的性能调优

阅读(421)评论(1)

       Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下...

Spark

Spark on Yarn:性能调优

阅读(690)评论(0)

1. 调优经验应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。(1)配置项的使用熟悉Hadoop开发的同学应该...

Spark

Spark性能优化的10大问题及其解决方案

阅读(294)评论(0)

问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间长解决方式:设置spark.local.dir为多个磁盘...

Spark

Akka是什么?

阅读(345)评论(0)

可扩展的实时事务处理我们相信编写出正确的具有容错性和可扩展性的并发程序太困难了。这多数是因为我们使用了错误的工具和错误的抽象级别。Akka就是为了改变这种状况而生的。通过使用Actor模型我们提升了抽象级别,为构建正确的可扩展并发应用提供了一个更好的平台。在容错性方面我们采取了“let it crash”(让它崩溃)模型,人们已经将这种模型用在了电信行业,构...