数据为王

数据为王
关于大数据的那些事儿

Spark

这家伙很懒,还没填写该栏目的介绍呢~

Spark

Spark分析窗口函数

阅读(1034)评论(0)

Spark1.4发布,支持了窗口分析函数(window functions)。在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,使用方式如下:1、初始化数据创建表create table window_test2 ...

Spark

Spark程序运行常见错误解决方法以及优化

阅读(2587)评论(0)

一.org.apache.spark.shuffle.FetchFailedException1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。2.报错提示(1) missing output locationorg.apache.spark.shuffle.MetadataFe...

Kafka

修改kafka topic的offset几种方法

阅读(1721)评论(0)

查询topic的offset的范围用下面命令可以查询到topic:test broker:suna:9092的offset的最小值:bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list suna:9092 -topic test --time -2输出test:0:1288查询offs...

Kafka

Kafka Consumer high-level与SimpleConsumer接口

阅读(784)评论(0)

high-level一种high-level版本,比较简单不用关心offset, 会自动的读zookeeper中该Consumer group的last offset 参考,https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example不过要注意一些注意事项,对于多个...

Spark

spark统一内存管理

阅读(452)评论(0)

spark从1.6.0开始内存管理发生了变化,原来的内存管理由StaticMemoryManager实现,现在被称为Legacy,在1.5.x和1.6.0中运行相同代码的行为是不同的,为了兼容Legacy,可以通过spark.memory.useLegacyMode来设置,默认该参数是关闭的。前面有一篇介绍spark内存管理的文章spark内存概述,现在介绍...

Spark

Spark性能调优

阅读(785)评论(0)

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面,对于日常监控十分有用。1. Application Web UIhttp://master:4040(默认端口是4040,可以通过spark.ui.port修改)可获得这些信息:(1)...

Spark

Spark排错与优化【转】

阅读(1986)评论(0)

一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成Spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用,在M...

Spark

spark 使用中会遇到的一些问题及解决思路

阅读(639)评论(0)

7 内存溢出问题    在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化反序列化,中间可能产生较多的class文件,导致JVM中的持久代使用较多,如果配置不当,可能引起类似于如下的OOM问题:Exception in thread "Thread...