机器学习支撑平台

 

智能分析平台依托大数据支撑平台建设,不仅节约成本,还可以充分利用大数据平台的计算资源,延伸数据的应用范围,实现智能分析、预测分析、智能诊断及智能报告,为后期的决策管理提供技术支撑。

主要功能:

在大数据上进行机器学习,需要处理全量数据并进行大量的迭代计算,这要求机器学习平台具备强大的处理能力。Spark 立足于内存计算,天然的适应于迭代式计算。幸运的是,Spark提供了一个基于海量数据的机器学习库SparkMLlib,它提供了常用机器学习算法的分布式实现,开发者只需要有 Spark 基础并且了解机器学习算法的原理,以及方法相关参数的含义,就可以轻松的通过调用相应的 API 来实现基于海量数据的机器学习过程。

SparkMLlib支持下面到常用算法:

分类:可以从输入数据中学习或建立一个模型,并以此模式推测新的结果。输入数据是由特征值和目标值组成,输出可以是一个离散的值,可以用来文本分类,垃圾邮件识别等。

回归:用于预测输入变量和输出变量之间的关系,输出是连续型的值。一般用来进行预测分析。

聚类:它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。

协同过滤:是一种推荐算法,原理是用户喜欢那些具有相似兴趣的用户喜欢过的商品,比如你的朋友喜欢电影哈利波特,那么就会推荐给你,这是最简单的基于用户的协同过滤算法,还有一种是基于Item的协同过滤算法。

通过机器学习回归和分类算法可以提供预测分析和智能诊断等功能。

 

产品特性:

Spark在机器学习方面的发展非常快,目前已经支持了主流的统计和机器学习算法。纵观所有基于分布式架构的开源机器学习库,MLlib可以算是计算效率最高的。MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。
MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:

算法工具:常用的学习算法,如分类、回归、聚类和协同过滤;
特征化公交:特征提取、转化、降维,和选择公交;
管道(Pipeline):用于构建、评估和调整机器学习管道的工具;
持久性:保存和加载算法,模型和管道;
实用工具:线性代数,统计,数据处理等工具。

从架构图可以看出MLlib主要包含三个部分:
底层基础:包括Spark的运行库、矩阵库和向量库;
算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;
实用程序:包括testtest数据的生成、外部数据的读入等功能。

联系方式: