数据为王

数据为王
关于大数据的那些事儿

机器学习

机器学习,SparkMLLib

机器学习

机器学习及SparkMLlib简介

阅读(771)评论(0)

1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A...

机器学习

基于Mahout的电影推荐系统

阅读(958)评论(0)

1.Mahout 简介Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持...

机器学习

逻辑回归算法分析及在MLlib中的实现剖析

阅读(1316)评论(0)

        逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函...

机器学习

GeoHash核心原理解析

阅读(505)评论(0)

引子机机是个好动又好学的孩子,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天机机到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。饭饱之后机机开始反思了,地图后台如何根据自己所在位置查询来查询附近餐馆的呢?苦思冥想了半天,机机想出了个方法:计算所在位置P与北京所有餐馆的距离,然后返回距离<=1000...

机器学习

geohash算法原理及实现方式

阅读(783)评论(0)

geohash有以下几个特点:首先,geohash用一个字符串表示经度和纬度两个坐标。某些情况下无法在两列上同时应用索引 (例如MySQL 4之前的版本,Google App Engine的数据层等),利用geohash,只需在一列上应用索引即可。其次,geohash表示的并不是一个点,而是一个矩形区域。比如编码wx4g0ec19,它表示的是一个矩形区域。 ...

机器学习

Mahout推荐算法编程实践

阅读(755)评论(0)

引言Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。下文介绍基于Taste实现最常用的UserCF和ItemCF。本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。欢迎转载,请注明来源:http://blog.csdn.net/u0109...

机器学习

Mahout推荐算法基础

阅读(532)评论(0)

Mahout主要推荐算法 Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法:1.基于用户的相似度2.相近的用户定义与数量特点:1.易于理解2.用户数较少时计算速度快 GenericItemBasedRecommender算法:1.基于item的相似度特点:1.item较少时就算速度更快2.当it...

机器学习

Mahout实现的机器学习算法

阅读(460)评论(0)

使用命令:mahout -h 在Mahout实现的机器学习算法见下表:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Machines有限波尔兹...

机器学习

Mahout学习之Mahout简介、安装、配置、入门程序测试

阅读(455)评论(0)

一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout) 步入正文啦:       Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算...