数据挖掘的原理与方法袁博目录CONTENTS01分类问题02聚类及其它数据挖掘03隐私保护与并行计算04迷雾重重01分类问题01分类问题把具有某种共同属性或特征的数据并在一起,通过其类别的属性或特征来对数据进行区别。分类问题交叉验证用于评估模型的预测性能01分类问题01分类问题混淆矩阵(误差矩阵)真实值是positive,模型认为是positive的数量(TruePositive=TP)真实值是positive,模型认为是negative的数量(FalseNegative=FN):这就是统计学上的第一类错误(TypeIError)真实值是negative,模型认为是positive的数量(FalsePositive=FP):这就是统计学上的第二类错误(TypeIIError)真实值是negative,模型认为是negative的数量(TrueNegative=TN)01分类问题ROC曲线理想情况下,TP应该接近1,FP应该接近0。比如Threshold最大时TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)01分类问题02聚类及其它数据挖掘问题02聚类分类按照某种标准给对象贴标签,再根据标签来区分归类聚类事先没有“标签”,而通过某种成团分析找出事物之间存在聚集性原因的过程。02分层聚类02聚类关联规则数据挖掘技术---线性回归线性回归聚类Garbageinputgarbageoutput输入垃圾输出垃圾03隐私保护与并行计算03隐私保护与并行计算03隐私保护与并行计算03隐私保护与并行计算随机问卷题目数据+算法+计算平台宏观做数据挖掘怎么做?04迷雾重重看待问题一定要全面,一定要从不同的层次,不同的角度综合来考虑。谢谢观看!