数据为王

数据为王
关于大数据的那些事儿

Hadoop

这家伙很懒,还没填写该栏目的介绍呢~

Hive

hive并发调用的运行方式

阅读(925)评论(0)

前言使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,需要配置为使用mysql保存hive的元数据。运行h...

Sqoop

sqoop的安装与使用

阅读(532)评论(0)

Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换。强大功能见下图以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr/local目录下。首先就是解压缩,重命名为sqoop,然后在文件/etc/profile中设...

Solr

solr 自定义分词器

阅读(702)评论(0)

今天需要将一个以逗号分隔的字段建立到索引库中去,没找到有现成的逗号分隔符分词器,于是看了看源码里空格分词器WhitespaceTokenizerFactory的写法。照葫芦画瓢写了一个逗号分词器:package com.besttone.analyzer; import java.io.Reader; import java.util.Map; ...

Solr

hive2solr问题小结

阅读(646)评论(0)

  搞了一段時間,hive2solr的job終於可以穩定的跑了,實現使用hive向solr插數據,主要是實現RecordWriter接口,重寫write方法和close方法。下面對遇到的問題  搞了一段時間,hive2solr的job終於可以穩定的跑了,實現使用hive向solr插數據,主要是實現RecordWriter接口,重寫writ...

Solr

Solr与HBase架构设计

阅读(660)评论(0)

摘要:本篇是本人在做一个大数据项目时,对于系统架构的一点总结,如何在保证存储量的情况下,又能保证数据的检索速度。前提:      Solr、SolrCloud提供了一整套的数据检索方案,HBase提供了完善的大数据存储机制。需求:      1、对于添加到HBase中的结构化数据,能够检索出来。&n...

Hbase

hbase+solr概念和环境搭建

阅读(637)评论(0)

概念: Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。H...