对象间的相似性.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SWUFE1对象间的相似性度量vickySWUFE2对象间的相似性度量•相似性–余弦夹角–简单匹配系数与JACCARD系数–广义JACCARD系数–相关系数•相异度–距离•归一化的相似性=1-归一化的相异度SWUFE3变量的标准化•计算平均绝对偏差其中•计算标准化的度量值(z-score)使用平均绝对偏差往往比使用标准差更具有健壮性|)|...|||(|121fnffffffmxmxmxns.)...211nffffxx(xnmffififsmxzSWUFE44夹角余弦SWUFE5简单匹配系数和JACCARD系数•对称的二元变量•不对称的二元变量–常将出现概率较小的状态编码为1,将另一种状态编码为0–两个都取值为0的情况成为负匹配,被认为不重要pdbcasumdcdcbabasum0101ObjectiObjectj简单匹配系数:R=(a+d)/(a+b+c+d)JACCARD系数:J=a/(a+b+c)SWUFE66广义JACCARD系数SWUFE77相关系数SWUFE8欧式距离与绝对距离•欧式距离•绝对距离(Manhattan距离)1(,).(6.3)pijikjkkdxxxx)||...|||(|),(2222211ppjxixjxixjxixjidSWUFE9Minkowski距离其中Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。11(,),(6.4)pmmijikjxkdxxxx1mmL2L1LSWUFE10切比雪夫距离•Chebyshev距离(切比雪夫距离)Chebyshev距离是Minkowski距离当时的极限。1(,)max.(6.5)ijikjkkpdxxxxmSWUFE11方差加权距离对标准化数据计算欧式距离时,即是方差加权距离。12221()(,).(6.7)pikjkijkkxxdxxs*ikxSWUFE12马氏距离其中是由各变量计算得到的协方差矩阵。考虑了变量之间的相关性。112(,)[()()](6.8)TijijijdxxxxSxxSSWUFE13针对二元变量的距离•对称的二元变量•不对称的二元变量–常将出现概率较小的状态编码为1,将另一种状态编码为0–两个都取值为0的情况成为负匹配,被认为不重要dcbacbjid),(cbacbjid),(pdbcasumdcdcbabasum0101ObjectiObjectjSWUFE1414二元变量距离和相似性练习某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101y=00011110011.如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?2.如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?SWUFE15针对标称变量的距离1.简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目P:全部标称变量的数量2.对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度pmpjid),(红绿蓝黄取值0100绿0010蓝……SWUFE16针对序数型变量的距离1.以顺序代替原值设序数变量f的第i个对象的值为xif,则用它在可能取值中的顺序rif代替xif(假设f有Mf个有序状态)2.将每个rif映射到[0,1]区间3.Zif视作数值变量计算距离11fififMrz},...,1{fifMr职称(4档):XI:助教XJ:副教授——XI:1XJ:3ZI:0ZJ:2/3SWUFE1717针对单属性的相似度和相异度补充:对非对称变量的处理注意距离类型的选择SWUFE18针对混合类型变量的距离设数据集有p个变量对象i和j之间的相异度为对每个变量f:如果xif或xjf缺失,或者xif和xjf都为0,则,否则SWUFE19例Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))/(1+0+1+1+1+0)=0.526NameFeverCoughGenderJobSalaryP-titleJackYNMTeacher200KProf.MaryYNFEngineer100KSWUFE20注意问题•不同属性的重要程度不同:加权,总权重和为1•相似性在时序上的局限性•与算法和工具有关20

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功