ETHINK数据挖掘产品白皮书

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

ETHINK数据挖掘产品白皮书一、概述ETHINK数据挖掘是分布式架构下的数据挖掘产品,通过拖拽式流程设计,可以快速实现各类数据挖掘的应用。目前已经包含数据挖掘几十种,是业界算法最丰富的挖掘产品之一。系统简单易用,一般数据分析人员能够借助挖掘平台,实现行业以及企业深度数据分析。数据挖掘与机器学习工具构建于分布式内存计算的基础之上,汇集了大量优质分布式算法,包括数据处理、特征工程、机器学习算法、文本算法等,可高效的完成海量、亿级维度数据的复杂计算,给业务带来更为精准的洞察力;同时,该工具提供了一套极易操作的可视化编辑页面,大大降低了数据挖掘的门槛,提高建模效率,最终帮您快速得到大数据背后隐藏的秘密。二、功能概述挖掘:数据连接支持各类关系数据库,EXCEL,支持HDFS,支持HIVE,HBASE等各类数据源:数据清洗与处理:支持相关性分析,全连接,过滤,数据离散,数据抽样,值转换,值替换,数据降维等操作。支持线性回归、关联模型、ALS模型、kmeans模型、决策树、随机森林、SVM模型等20类丰富算法模型。支持模型的评估与发布。支持任务调度,离线计算。分析报告:支持各类可视化报告,支持数据导出到可视化平台。任务管理:支持离线挖掘与实时发掘。挖掘平台计算架构:分布式内存计算架构,支持海量数据的挖掘与分析。1.数据挖掘平台界面ETHINK数据挖掘平台平台界面如下图所示:2.平台操作功能展示侧边栏组件:展示了数据挖掘算法组件以及算法等核心功能。画布区:用户可以用鼠标将相应的组件拖拽到画布上,形成一个有向的建模流程,完成从数据输入到数据输出处理等一系列的数据挖掘工作。属性区:该区域可以设置组件内参数配置的信息。3.平台界面主要功能搜索功能:当有很多数据、表、文件时,可以通过搜索功能快速查找所需的资料。模型文件:通过勾选模型文件,可以在平台上进行模型的重命名、移动、删除、导出等操作,单机进入可以编辑之前没有完成的流程建模。表数据:类似于文件管理器,可以查看所有的数据表。文件列表:通过该功能,用户可以管理所有的文件以及模型。4.数据挖掘组件提供整套的数据挖掘组件,包括数据的预处理、特征抽取、模型训练、预测和评估。将数据导入平台后,可通过拖拽的方式,借助组件灵活地建立模型流程来解决自身的业务场景。5.可视化建模操作界面通过拖拽组件,进行可视化建模。从左边的组件框中拖拉组件到右边的画布中可搭建模型流程。6.数据可视化展示通过模型输出数据到数据库,在平台进行数据可视化展示。在操作界面通过拖拽图形选择数据进行配置。7.算法组件数据挖掘包含数据预处理、数据清洗、经典算法、挖掘报告、统计分析、特征工程、统计分析、这一整套数据挖掘算法组件,共100余种。经典算法自动模型自动分类模型、自动数值模型分类模型自动分类模型、逻辑回归模型、SVM模型、朴素贝叶斯模型、决策树模型、神经网络模型、随机森林、梯度提升树模型回归模型自动数值模型、决策树模型、线性回归模型、岭回归模型、Lasso模型、随机森林、梯度提升树模型聚类模型K-Means模型、高斯混合模型、BisectingK-Means模型推荐模型ALS模型关联规则关联规则模型智能算法深度学习神经网络模型、深度学习模型、随机森林(DRF)、梯度提升树(GBM)、广义线性模型(GLM)自有算法自组织数据挖掘,随机森林,随机决策树,一次迭代LR、k-均值聚类、Backpropagation,AutoEncoder,RBM,Convolution、自组织数据挖掘、Commonalities,GLM,DRF,DeepFeatures,Feed-ForwardNeuralNetwork,特征权重算法三、功能特性1.数据挖掘数据连接支持各类关系数据库,EXCEL,支持HDFS,支持HIVE,HBASE等各类数据源2.数据清洗与处理支持相关性分析,全连接,过滤,数据离散,数据抽样,值转换,值替换,数据降维等操作。支持线性回归、关联模型、ALS模型、kmeans模型、决策树、随机森林、SVM模型等20类丰富算法模型。支持模型的评估与发布。支持任务调度,离线计算。3.分析报告支持各类可视化报告,支持数据导出到可视化平台。4.任务管理支持离线挖掘与实时发掘。5.挖掘平台计算架构分布式内存计算架构,支持海量数据的挖掘与分析。四、产品优势1.原生大数据分布式计算提供丰富的分布式算法,提高模型精度,帮助客户从海量数据中挖掘出业务价值。业界已有的是传统单机产品,基于CS模式的工具模式。传统挖掘产品比如成EXCEL这样一个挖掘工具,ETHINK是一个WINDOWS系统,上面自带了OFFICE系列。2.支持自定义算法和组件提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模的门槛。是业界算法模型最丰富的产品。目前涵盖了从经典数据挖掘,到统计,到非结构化挖掘等一系列的算法。支持自定义算法和组件,灵活开放的个性化设置,极大地提高了用户建模效率。3.丰富的通用模型建立几百个案例库与丰富的通用模型,基本覆盖行业与企业应用需求。操作简单易用,一般用户30分钟就会实现机器学习与挖掘模型。WEB界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程。4.多种数据处理支持相关性分析,全连接,过滤,数据离散,数据抽样,值转换,值替换,数据降维等操作。5.简单易用拖拽设计WEB界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程。6.一站式平台服务提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模的门槛。7.大数据分布式计算提供丰富的分布式算法,提高模型精度,帮助客户从海量数据中挖掘出业务价值。8.分析报告支持各类可视化报告,支持数据导出到可视化平台。五、产品优势对比六、应用场景开发者将实际业务抽象成结构化数据,利用机器学习算法处理分类、聚类、预测、推荐等应用场景的业务。企业级用户需要具备以下能力:*具备基础的数据加工能力,能大致理解自主结构化数据的能力,根据自己的业务场景将数据量化。*具备基础机器学习算法能力,知道算法与业务场景的适应关系,可以根据我们提供的在线演示与算法教程来学习。*可以根据ETHINK在线已经有的50多个经典场景模板或案例来参考创建。(也可联系我们进行定制化服务、包括算法定制、建模服务等)七、案例场景1.关联分析关联规则与聚类算法一样,属于无监督学习方法。它在许多实际业务中都有应用,最广泛的应用便是在超市中,因此也叫作“购物篮分析(MarketBasketAnalysis)”对商场销售数据进行分析,从而得到顾客的购买特性,并根据发现的规律而采取有效的行动。通过典型的购物篮分析,将顾客和商品关联起来,通过这种关联有效管理商品的摆放及顾客的喜好,做到销售利润最大化并将顾客感兴趣的商品即使推送给顾客。2.预测分析通过对历史数据的统计和学习得到预测模型(通过机器学习建立),再利用此模型对未来的输入输出值进行预测。预测问题多采用统计学技术解决,如回归分析和时间序列分析等。回归分析的主要目的是用来研究目标变量和影响它的相关变量间的关系。做好电力负荷预测管理工作可以有效降低电网公司运行成本和提高电力设备运行效率,其预测精度不仅影响到电网安全可靠供电,而且直接影响到电网经营企业的生产经营决策及经营效益。通过时序预测,提前判定电实时负荷趋势,及时调整用电配置,减少电量的浪费,扩大电网公司效益。3.推荐分析当今的商业竞争日趋激烈,获得一个新客户的成本越来越高,保持原有顾客也就显得越来越重要。营销实践表明:争取一个新客户的花费常常可以达到留住一个老客户花费的5到10倍。客户忠诚是客户在较长的一段时间内,对于企业产品或服务保持的选择偏好与重复性购买。忠诚的客户不仅会增加购买量,而且往往会为企业介绍新客户。与传统的商务相比较,电子商务的客户忠诚度更重要。本案例通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。及时将用户的喜好推荐给他,减少用户的流失,增加其忠诚度。4.异常分析信用风险往往和损失联系在一起,或者说,信用风险可以导致损失。第一,对于信用活动的一个事件来说,既存在损失的可能性,也存在盈利的可能性。第二,信用风险指的是一种可能性,是一种结果未知的未来事件。因此通过风险评估可以减少银行的损失。5.分类问题首先对收集到的变量进行分析,找出其与目标变量的相关特征,并筛选出两者间的联系。大前提是通过对历史数据的收集,明确了具体的分类项目、用户的分类结果。在信用活动中,不确定性包括外在不确定性和内在不确定性两种。外在不确定性来自于经济实体以外,是经济运行过程中随机性、偶然性的变化或不可预测的趋势。内在不确定性来源于经济体系之内,它是由行为人主观决策及获取信息的不充分性等原因造成的,带有明显的个人特征。根据申请人的特征属性,得到其申请是否存在风险,其中Ⅰ类表示风险不大,Ⅱ类表示风险大。6.聚类问题按照不同的对象,划分若干不同的问题。聚类问题的核心是其划分的依据,经过处理后的同一类对象相似度较高,不同的对象则具有较低的相似度。聚类的方法各种各样,常常用距离、密度来度量不同对象的相似度。目前,最流行的聚类划分方法是基于用户间的距离长短来划分。通过展示分析,我们可以把用户分为四大类,其中3为重要挽留客户;0为重要发展客户;2为重要保持客户;1为一般客户。八、合作案例

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功