机器学习库spark-sklearn

zhoulei0
1 ℃
2020-03-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

机器学习库SPARK-SKLEARN李振什么是机器学习机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能机器学习是对能通过经验自动改进的计算机算法的研究机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机。什么是机器学习传统机器学习—主要是算法深度学习（DeepLearning）是机器学习的一个子集，就是用复杂、庞大的神经网络进行机器学习。核心是大数据量什么是机器学习SKLEARN简介SciPy——一个开源的基于Python的科学计算工具包。基于SciPy，目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本，它们被统一称为Scikits，即SciPy工具包的意思。而在这些分支版本中，最有名，也是专门面向机器学习的一个就是Scikit-learn。Scikit-learn开源库显得较为保守。这主要体现在两个方面：一是Scikit-learn从来不做除机器学习领域之外的其他扩展，二是Scikit-learn从来不采用未经广泛验证的算法。SKLEARN简介基本功能主要分为六大部分：分类回归聚类数据降维模型选择数据预处理SKLEARN功能--分类识别给定对象的所属类别，属于监督学习的范畴。最常见的应用场景包括垃圾邮件检测和图像识别等。算法：支持向量机（SVM），最近邻，逻辑回归，随机森林，决策树以及多层感知器（MLP）神经网络等等。不支持深度学习，也不支持GPU加速，MLP不适合于处理大规模问题SKLEARN功能--回归预测与给定对象相关联的连续值属性，最常见的应用场景包括预测药物反应和预测股票价格等。算法：支持向量回归（SVR），脊回归，Lasso回归，弹性网络（ElasticNet），最小角回归（LARS），贝叶斯回归，以及各种不同的鲁棒回归算法等。SKLEARN功能--聚类是指自动识别具有相似属性的给定对象，并将其分组为集合，属于无监督学习的范畴，最常见的应用场景包括顾客细分和试验结果分组。算法：K-均值聚类，谱聚类，均值偏移，分层聚类，DBSCAN聚类等。SKLEARN功能--数据降维使用降维技术来减少要考虑的随机变量的个数，其主要应用场景包括可视化处理和效率提升。算法：主成分分析（PCA）、非负矩阵分解（NMF）、映射(Projection)、流行学习(ManifoldLearning)、增量式PCA、RandomizedPCA、KernelPCA、LLE(LocallyLinearEmbedding)、LDA(LinearDiscriminantAnalysis)、特征选择等SKLEARN功能--模型选择对于给定参数和模型的比较、验证和选择，其主要目的是通过参数调整来提升精度。模块：格点搜索，交叉验证、各种针对预测误差评估的度量函数SKLEARN功能--数据预处理数据的特征提取和归一化，是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量，但因为大多数时候都做不到精确等于零，因此会设置一个可接受的范围，一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。方法：标准化（中心化）、归一化、二值化、种类特征编码、缺失值处理、生成多项式特征SPARK-SKLEARN简介目前Spark集成了Scikit-learn库，这个库可以在Spark集群上自动分配模型参数优化计算任务学习资源Sklearn中文文档：腾讯深度学习实验室：网易公开课：Python数据分析库：