数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.范明等译人民邮电出版社第3章数据探索鸢尾花数据集汇总统计可视化*OLAP和多维数据分析2019年10月21日星期一数据挖掘导论3什么是数据探索数据的初步探索旨在更好地理解数据的特性数据探索的主要动机帮助选择正确的数据预处理和分析工具利用人识别数据模式的能力人可能识别数据分析工具不能捕获的模式与探索式数据分析(ExploratoryDataAnalysis,EDA)有关探索式数据分析是由统计学家JohnTukey开创的Tukey的其他贡献:FFT,bit,softwareSeminalbookisExploratoryDataAnalysisbyTukeyAniceonlineintroductioncanbefoundinChapter1oftheNISTEngineeringStatisticsHandbook年10月21日星期一数据挖掘导论4数据探索技术InEDA,asoriginallydefinedbyTukeyThefocuswasonvisualizationClusteringandanomalydetectionwereviewedasexploratorytechniquesIndatamining,clusteringandanomalydetectionaremajorareasofinterest,andnotthoughtofasjustexploratoryInourdiscussionofdataexploration,wefocusonSummarystatisticsVisualizationOnlineAnalyticalProcessing(OLAP)3.1鸢尾花数据集2019年10月21日星期一数据挖掘导论6鸢尾花数据集ManyoftheexploratorydatatechniquesareillustratedwiththeIrisPlantdataset.CanbeobtainedfromtheUCIMachineLearningRepository~mlearn/MLRepository.htmlFromthestatisticianDouglasFisherThreeflowertypes(classes):SetosaVirginicaVersicolourFour(non-class)attributesSepalwidthandlengthPetalwidthandlength3.2汇总统计2019年10月21日星期一数据挖掘导论8汇总统计汇总统计量汇总了数据的性质汇总性质包括频度、位置和发散例:位置–均值发散–标准差大部分汇总统计量都可以通过单遍扫描数据计算2019年10月21日星期一数据挖掘导论9频率和众数频率和众数:用于离散属性频率(frequency):给定一个在{v1,...,vi,...,vk}上取值的分类属性x和m个对象的集合,值vi的频率定义为Forexample,giventheattribute‘gender’andarepresentativepopulationofpeople,thegender‘female’occursabout50%ofthetime.众数(mode)Themodeofaanattributeisthemostfrequentattributevaluemvvfrequencyii的对象数具有属性值)(2019年10月21日星期一数据挖掘导论10百分位数用于有序或连续属性百分位数(percentile)x是有序或连续属性,p是0与100之间的数,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp第25、50和75个百分位数,分别记为Q1、Q2和Q3,分别称为第一、第二和第三个四分位数(quartiles)第二个四分位数Q2又称中位数(median)如果值的个数n是奇数,则中位数是有序集合的中间值;否则中位数是中间两个数的平均值中间四分位数极差(IQR):IQR=Q3Q1五数概括(five-numbersummary)由中位数M,四分位数Q1和Q3,最小和最大观测值组成Minimum,Q1,M,Q3,Maximum2019年10月21日星期一数据挖掘导论11均值均值(mean)是中心位置度量加权算术平均:每个值xi与一个权wi相关联,i=1,...,m如果诸权重之和为1,则上式可以简化miixmx11miimiiiwxwx112019年10月21日星期一数据挖掘导论12均值(续)均值的问题:少量极端值可能严重影响均值公司的平均工资可能被少数高报酬的经理显著抬高班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多解决方法:使用截断均值(trimmedmean)截断均值是去掉高、低极端值得到的均值例如,可以将工资的观测值排序,并在计算均值前去掉上下2%的值,然后求均值避免在两端截断的比例太大(如20%),因为这可能导致损失有价值的信息2019年10月21日星期一数据挖掘导论13极差和方差是散布度量极差(range)range(x)=max(x)min(x)标准差(standarddeviation)方差(variance)是标准差的平方方差和标准差都是最常用的统计量容易受极端值(离群点)的影响,可能被离群值扭曲因为使用均值计算miixxxm12)(112019年10月21日星期一数据挖掘导论14其它散布度量绝对平均偏差(absoluteaveragedeviation,AAD)中位数绝对偏差(medianabsolutedeviation,MAD)中间四分位数极差(interquartilerange,IQR)IQR=Q3Q1miixxmxAAD1||1)(|})||,...,({|)(1xxxxmedianxMADm2019年10月21日星期一数据挖掘导论15多元汇总统计数据对象的均值协方差矩阵(covariancematrix)SS的第ij个元素sij是数据的第i个和第j个属性的协方差相关矩阵(correlationmatrix)R的第ij个元素是数据的第i个和第j个属性之间的相关性),...,(1nxxxmkjkjikijiijxxxxm,s1))((11)(covariancexxjijijiijssncorrelatior),(covariance),(xxxx3.3可视化2019年10月21日星期一数据挖掘导论17可视化Visualizationistheconversionofdataintoavisualortabularformatsothatthecharacteristicsofthedataandtherelationshipsamongdataitemsorattributescanbeanalyzedorreported.Visualizationofdataisoneofthemostpowerfulandappealingtechniquesfordataexploration.HumanshaveawelldevelopedabilitytoanalyzelargeamountsofinformationthatispresentedvisuallyCandetectgeneralpatternsandtrendsCandetectoutliersandunusualpatterns2019年10月21日星期一数据挖掘导论18可视化:例ThefollowingshowstheSeaSurfaceTemperature(SST)forJuly1982Tensofthousandsofdatapointsaresummarizedinasinglefigure2019年10月21日星期一数据挖掘导论19可视化:表示可视化的第一步是将信息映射成可视形式Dataobjects,theirattributes,andtherelationshipsamongdataobjectsaretranslatedintographicalelementssuchaspoints,lines,shapes,andcolors.Example:ObjectsareoftenrepresentedaspointsTheirattributevaluescanberepresentedasthepositionofthepointsorthecharacteristicsofthepoints,e.g.,color,size,andshapeIfpositionisused,thentherelationshipsofpoints,i.e.,whethertheyformgroupsorapointisanoutlier,iseasilyperceived.2019年10月21日星期一数据挖掘导论20可视化:安排可视化元素在显示中的布局可能导致数据理解难度的巨大差异例:具有6个二元属性的9个对象的表(左),排列后使得行和列的联系明朗(右)2019年10月21日星期一数据挖掘导论21可视化:选择删除或不突出某些对象/属性无法有效显示大量属性同时显示大量对象太拥挤选择属性的一个子集通常使用维规约技术,把维度降低到2或3维此外,也可以逐对考察属性选择对象的一个子集屏幕上无法显示过多的对象可以抽样,单希望保留稀疏区域2019年10月21日星期一数据挖掘导论22可视化技术:直方图直方图(Histogram)UsuallyshowsthedistributionofvaluesofasinglevariableDividethevaluesintobinsandshowabarplotofthenumberofobjectsineachbin.TheheightofeachbarindicatesthenumberofobjectsShapeofhistogramdependsonthenumberofbinsExample:Iris数据集萼片长度\宽度,花瓣长度\宽度的等宽直方图(10bins)2019年10月21日星期一数据挖掘导论23直方图(续)二维直方图(two-dimensionalhistogram)Showthejointdistributionofthevaluesoftwoattributes例:Iris数据集的花瓣长度和花瓣宽度的二维直方图2019年10月21日星期一数据挖掘导论24可视化技术:盒图BoxPlotsInventedbyJ.TukeyAnotherwayofdisplayingthedistributionofdataIris数据集萼片长度盒状图outlier10thpercentile25thpercentile75thpercentile50thpercentile10thpercentile2019年10月21日星期一数据挖掘导论25盒图(续)Boxplotscanbeusedtocompareattributes2019年10月21日星期一数据挖掘导论26可视化技术:饼图饼图(piechart)类似于直方图,但通常用于具有相对较少的值的分类属性饼图使用圆的相对面积显示不同值的相对频率例:Iris数据集鸢尾花的类型分布2019年10月21日星期一数据挖掘导论27可视化技术:累计分布