数据挖掘Chapter3

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.范明等译人民邮电出版社第3章数据探索鸢尾花数据集汇总统计可视化*OLAP和多维数据分析2019年10月21日星期一数据挖掘导论3什么是数据探索数据的初步探索旨在更好地理解数据的特性数据探索的主要动机帮助选择正确的数据预处理和分析工具利用人识别数据模式的能力人可能识别数据分析工具不能捕获的模式与探索式数据分析(ExploratoryDataAnalysis,EDA)有关探索式数据分析是由统计学家JohnTukey开创的Tukey的其他贡献:FFT,bit,softwareSeminalbookisExploratoryDataAnalysisbyTukeyAniceonlineintroductioncanbefoundinChapter1oftheNISTEngineeringStatisticsHandbook年10月21日星期一数据挖掘导论4数据探索技术InEDA,asoriginallydefinedbyTukeyThefocuswasonvisualizationClusteringandanomalydetectionwereviewedasexploratorytechniquesIndatamining,clusteringandanomalydetectionaremajorareasofinterest,andnotthoughtofasjustexploratoryInourdiscussionofdataexploration,wefocusonSummarystatisticsVisualizationOnlineAnalyticalProcessing(OLAP)3.1鸢尾花数据集2019年10月21日星期一数据挖掘导论6鸢尾花数据集ManyoftheexploratorydatatechniquesareillustratedwiththeIrisPlantdataset.CanbeobtainedfromtheUCIMachineLearningRepository~mlearn/MLRepository.htmlFromthestatisticianDouglasFisherThreeflowertypes(classes):SetosaVirginicaVersicolourFour(non-class)attributesSepalwidthandlengthPetalwidthandlength3.2汇总统计2019年10月21日星期一数据挖掘导论8汇总统计汇总统计量汇总了数据的性质汇总性质包括频度、位置和发散例:位置–均值发散–标准差大部分汇总统计量都可以通过单遍扫描数据计算2019年10月21日星期一数据挖掘导论9频率和众数频率和众数:用于离散属性频率(frequency):给定一个在{v1,...,vi,...,vk}上取值的分类属性x和m个对象的集合,值vi的频率定义为Forexample,giventheattribute‘gender’andarepresentativepopulationofpeople,thegender‘female’occursabout50%ofthetime.众数(mode)Themodeofaanattributeisthemostfrequentattributevaluemvvfrequencyii的对象数具有属性值)(2019年10月21日星期一数据挖掘导论10百分位数用于有序或连续属性百分位数(percentile)x是有序或连续属性,p是0与100之间的数,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp第25、50和75个百分位数,分别记为Q1、Q2和Q3,分别称为第一、第二和第三个四分位数(quartiles)第二个四分位数Q2又称中位数(median)如果值的个数n是奇数,则中位数是有序集合的中间值;否则中位数是中间两个数的平均值中间四分位数极差(IQR):IQR=Q3Q1五数概括(five-numbersummary)由中位数M,四分位数Q1和Q3,最小和最大观测值组成Minimum,Q1,M,Q3,Maximum2019年10月21日星期一数据挖掘导论11均值均值(mean)是中心位置度量加权算术平均:每个值xi与一个权wi相关联,i=1,...,m如果诸权重之和为1,则上式可以简化miixmx11miimiiiwxwx112019年10月21日星期一数据挖掘导论12均值(续)均值的问题:少量极端值可能严重影响均值公司的平均工资可能被少数高报酬的经理显著抬高班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多解决方法:使用截断均值(trimmedmean)截断均值是去掉高、低极端值得到的均值例如,可以将工资的观测值排序,并在计算均值前去掉上下2%的值,然后求均值避免在两端截断的比例太大(如20%),因为这可能导致损失有价值的信息2019年10月21日星期一数据挖掘导论13极差和方差是散布度量极差(range)range(x)=max(x)min(x)标准差(standarddeviation)方差(variance)是标准差的平方方差和标准差都是最常用的统计量容易受极端值(离群点)的影响,可能被离群值扭曲因为使用均值计算miixxxm12)(112019年10月21日星期一数据挖掘导论14其它散布度量绝对平均偏差(absoluteaveragedeviation,AAD)中位数绝对偏差(medianabsolutedeviation,MAD)中间四分位数极差(interquartilerange,IQR)IQR=Q3Q1miixxmxAAD1||1)(|})||,...,({|)(1xxxxmedianxMADm2019年10月21日星期一数据挖掘导论15多元汇总统计数据对象的均值协方差矩阵(covariancematrix)SS的第ij个元素sij是数据的第i个和第j个属性的协方差相关矩阵(correlationmatrix)R的第ij个元素是数据的第i个和第j个属性之间的相关性),...,(1nxxxmkjkjikijiijxxxxm,s1))((11)(covariancexxjijijiijssncorrelatior),(covariance),(xxxx3.3可视化2019年10月21日星期一数据挖掘导论17可视化Visualizationistheconversionofdataintoavisualortabularformatsothatthecharacteristicsofthedataandtherelationshipsamongdataitemsorattributescanbeanalyzedorreported.Visualizationofdataisoneofthemostpowerfulandappealingtechniquesfordataexploration.HumanshaveawelldevelopedabilitytoanalyzelargeamountsofinformationthatispresentedvisuallyCandetectgeneralpatternsandtrendsCandetectoutliersandunusualpatterns2019年10月21日星期一数据挖掘导论18可视化:例ThefollowingshowstheSeaSurfaceTemperature(SST)forJuly1982Tensofthousandsofdatapointsaresummarizedinasinglefigure2019年10月21日星期一数据挖掘导论19可视化:表示可视化的第一步是将信息映射成可视形式Dataobjects,theirattributes,andtherelationshipsamongdataobjectsaretranslatedintographicalelementssuchaspoints,lines,shapes,andcolors.Example:ObjectsareoftenrepresentedaspointsTheirattributevaluescanberepresentedasthepositionofthepointsorthecharacteristicsofthepoints,e.g.,color,size,andshapeIfpositionisused,thentherelationshipsofpoints,i.e.,whethertheyformgroupsorapointisanoutlier,iseasilyperceived.2019年10月21日星期一数据挖掘导论20可视化:安排可视化元素在显示中的布局可能导致数据理解难度的巨大差异例:具有6个二元属性的9个对象的表(左),排列后使得行和列的联系明朗(右)2019年10月21日星期一数据挖掘导论21可视化:选择删除或不突出某些对象/属性无法有效显示大量属性同时显示大量对象太拥挤选择属性的一个子集通常使用维规约技术,把维度降低到2或3维此外,也可以逐对考察属性选择对象的一个子集屏幕上无法显示过多的对象可以抽样,单希望保留稀疏区域2019年10月21日星期一数据挖掘导论22可视化技术:直方图直方图(Histogram)UsuallyshowsthedistributionofvaluesofasinglevariableDividethevaluesintobinsandshowabarplotofthenumberofobjectsineachbin.TheheightofeachbarindicatesthenumberofobjectsShapeofhistogramdependsonthenumberofbinsExample:Iris数据集萼片长度\宽度,花瓣长度\宽度的等宽直方图(10bins)2019年10月21日星期一数据挖掘导论23直方图(续)二维直方图(two-dimensionalhistogram)Showthejointdistributionofthevaluesoftwoattributes例:Iris数据集的花瓣长度和花瓣宽度的二维直方图2019年10月21日星期一数据挖掘导论24可视化技术:盒图BoxPlotsInventedbyJ.TukeyAnotherwayofdisplayingthedistributionofdataIris数据集萼片长度盒状图outlier10thpercentile25thpercentile75thpercentile50thpercentile10thpercentile2019年10月21日星期一数据挖掘导论25盒图(续)Boxplotscanbeusedtocompareattributes2019年10月21日星期一数据挖掘导论26可视化技术:饼图饼图(piechart)类似于直方图,但通常用于具有相对较少的值的分类属性饼图使用圆的相对面积显示不同值的相对频率例:Iris数据集鸢尾花的类型分布2019年10月21日星期一数据挖掘导论27可视化技术:累计分布

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功