机器学习与数据挖掘样本准备(2)2020年7月5日MachineLearningandDatamining2样本准备对象分割对象在文档中可能只占很小比例用整个文档提取的特征含有大量噪声特征与特征提取使用什么样的特征?如何计算?如何进行预处理?……样本选择正负样本数可能严重失衡(1:10,1:100)样本可能包含噪声2020年7月5日MachineLearningandDatamining3特征何为特征?Inpatternrecognition,featuresaretheindividualmeasurableheuristicpropertiesofthephenomenabeingobserved.Incomputervisionandimageprocessingtheconceptoffeatureisusedtodenoteapieceofinformationwhichisrelevantforsolvingthecomputationaltaskrelatedtoacertainapplication.2020年7月5日MachineLearningandDatamining4特征何为特征?特征:实体(或事物、概念……)区别于其它实体(事物、概念……)的独特的属性特征=特+征性质独特的特殊的有比较,才有独特、特殊2020年7月5日MachineLearningandDatamining5特征特征的属性独特性目标实体和非目标实体有不同的取值范围确定性特征,概率性特征可计算性以可接受的代价从目标实体采集数据并计算出来特征的成本特征的质量(噪声)2020年7月5日MachineLearningandDatamining6特征特征组的属性完备性可以完全区分目标实体和非目标实体必要性对区分目标实体和非目标实体是否必要独立性特征之间是否相关2020年7月5日MachineLearningandDatamining7特征特征的种类(应用意义上)多媒体特征(视觉、听觉特征)颜色、纹理、形状……频率、节奏……文字/关键字特征字频、词频……元数据特征目录名、链接、链接文字、日期……2020年7月5日MachineLearningandDatamining8特征提取何为特征提取?从原始数据计算出特征的数值(或模型)特征提取须考虑的问题可计算性特征提取时,数据采集往往已经完成,特征提取不具备采用不同数据采集手段的灵活性成本计算复杂度,吞吐率,延迟,人力开销……噪声很多多媒体特征提取准确率低2020年7月5日MachineLearningandDatamining9特征提取像素特征直接用像素的颜色值表示特征实现简单信息质量差仅包含单个像素的信息同时包含需要的信息和不需要的噪声难以表示全局信息后续分类和处理困难2020年7月5日MachineLearningandDatamining10特征提取颜色特征颜色是人眼非常敏感的特征如何提取和表示颜色特征?平均颜色把所有像素的颜色值当作矢量,计算所有像素的颜色矢量的算术平均2020年7月5日MachineLearningandDatamining11特征提取颜色特征颜色矩如果把像素看成随机变量,则其分布特性可以由矩来描述一阶矩(均值):二阶中心矩(标准差):三阶中心矩:维数低,易于计算信息量少,对噪声敏感NjijiPN11NjiijiPN1212])(1[NjiijiPN1313])(1[2020年7月5日MachineLearningandDatamining12特征提取颜色特征颜色直方图直方图:概率密度函数颜色:三维如何统计直方图?方法1:三维颜色直方图直方图的每个槽对应一组(R,G,B)矢量值RGB均0~255直方图有256*256*256=16M个槽图像像素数:704*576=405K,1920*1080=2M统计直方图需要使用较粗的量化一般量化成16级16*16*16=4096个槽维数仍然很高2020年7月5日MachineLearningandDatamining13特征提取颜色特征颜色直方图方法2:三个一维直方图对R、G、B三个颜色分别统计一个直方图不进一步量化:256+256+256=768维每种颜色量化成16级:16+16+16=48维优点:维数大大降低缺点:颜色之间的相关信息丢失在较独立的颜色空间统计(如:YUV,HSI)亮度统计一维直方图,色度统计二维直方图直方图的维数仍然较高2020年7月5日MachineLearningandDatamining14特征提取颜色特征聚类颜色直方图普通颜色直方图不管图像本身的颜色分布,整个颜色空间的所有颜色都是直方图的槽维数高必须覆盖整个颜色空间精度差对颜色空间的机械分割为了在合理的维数内实现,颜色空间的划分很粗利用图像本身的像素进行聚类,用聚类中心作为直方图的槽不同图像的直方图各维没有统一的物理含义2020年7月5日MachineLearningandDatamining15特征提取纹理特征纹理:临近像素的变化趋势和模式一定尺度内的一种分布模式可以是固定的模式:如砖墙可以是概率的模式:如草地与像素的绝对颜色/亮度关系较小与颜色/亮度差异关系大2020年7月5日MachineLearningandDatamining16特征提取纹理特征灰度共生矩阵两个有固定空间关系的像素的联合概率密度函数空间关系01…25501…2552020年7月5日MachineLearningandDatamining17特征提取纹理特征灰度共生矩阵超高的维数空间关系有很多个每个空间关系有一个二维直方图在这些二维直方图上作“二次统计”以降低维数角二阶矩(能量)、对比度(惯性矩)、相关、熵、逆差矩等与人类视觉对纹理的心理感知不同2020年7月5日MachineLearningandDatamining18特征提取纹理特征Tamura纹理特征依据心理视觉特性定义的纹理特征计算准确率较差,信息量较少稀疏度对比度方向性线状性规则性粗糙度2020年7月5日MachineLearningandDatamining19特征提取纹理特征频率域的纹理特征纹理是“变化趋势和模式”在某个频率上有突出的特征利用频率变换表示纹理特征小波纹理特征对图像作小波变换计算小波的一阶矩和二阶矩作为纹理特征2020年7月5日MachineLearningandDatamining20特征提取纹理特征频率域的纹理特征局部傅立叶变换纹理特征在局部邻域(3x3,4x4,5x5…窗口)内作傅立叶变换,用傅立叶系数作为纹理特征Gabor变换频率空间中的局部区域特征2020年7月5日MachineLearningandDatamining21特征提取纹理特征频率域的纹理特征Gabor变换频率空间中取某个窗口内的系数来提取特征2020年7月5日MachineLearningandDatamining22特征提取形状特征面积(A)、周长(P)、质心(O)长度(L)、宽度(W)2020年7月5日MachineLearningandDatamining23特征提取形状特征矩形度:面积和最小外接矩形面积的比值长宽比:L/W圆度:欧拉数拓扑特征难以精确提取24PAe信息量小2020年7月5日MachineLearningandDatamining24特征提取形状特征轮廓的高维特征把轮廓坐标转换成一维复数序列一维复函数可以进行傅立叶变换,提取频率特征傅立叶描述子2020年7月5日MachineLearningandDatamining25特征提取文字特征文字的基本单位字/字母,词西方文字:字母并无显著语义中文:“字”接近于词字频早期中文处理技术及少数简单的中文处理应用词频及词频衍生特征大多数文字处理应用如何获得“词”?2020年7月5日MachineLearningandDatamining26特征提取分词(Tokenlize/Lexicon)输入:字符串例:“Friends,Romans,countrymen”例:“华东师范大学”输出:词(token)Friends华东Romans师范countrymen大学词经过后处理可以作为提取词频的依据就这么简单?2020年7月5日MachineLearningandDatamining27分词问题Finland’scapitalFinland?Finlands?Finland’s?Hewlett-Packard1个词?2个?State-of-the-art?thehold-him-back-and-drag-him-away-maneuver?L'ensemble1个词?2个?L?L’?Le?不同的系统使用不同的方法2020年7月5日MachineLearningandDatamining28分词各种数字形式3/12/91Mar.12,199155B.C.B-52MyPGPkeyis324a3df234cb23e100.2.86.144+86-21-622350892020年7月5日MachineLearningandDatamining29分词基本算法正则式匹配例:普通的英文日期[0-9]{1,2}“/”[0-9]{1,2}“/”[0-9]{2,4}例:普通的英文单词[a-zA-Z]+一个西欧语言的分词可能需要数十条正则式使用flex或re2c可以方便地开发英语的分词flex程序例:请从主页下载练习:用re2c写一个结构更好的英语分词程序不用提交2020年7月5日MachineLearningandDatamining30分词问题SanFrancisco1个词?2个?SanFrancisco-LasVegas德语复合名词不加空格Lebensversicherungsgesellschaftsangestellter‘lifeinsurancecompanyemployee’中文和日文没有空格“华东师范大学软件学院”分词是一个大问题!2020年7月5日MachineLearningandDatamining31分词基于词典的分词华盛顿有意见分歧意见分歧华盛顿……词典华盛顿/有/意见/分歧2020年7月5日MachineLearningandDatamining32分词基于词典的分词“感冒清胶囊”感冒/清/胶囊感冒清/胶囊感冒感冒清……最大匹配原则:匹配词典中最长的词2020年7月5日MachineLearningandDatamining33分词基于词典的分词“有意见分歧”有意/见/分歧有/意见/分歧“中国人民”中国人/民中国/人民正向匹配反向匹配对中文:反向匹配准确率较高2020年7月5日MachineLearningandDatamining34分词基于词典的分词“实在感觉英雄无用武之地方能拍案而起”实在/感觉/英雄无用武之地/方/能/拍案而起实在/感觉/英雄/无用/武/之/地方/能/拍案而起双向匹配:正反两个方向分别分词,选择词数较小的结果优点:准确率较高缺点:慢2020年7月5日MachineLearningandDatamining35分词基于词典的分词其它语言中的应用日语、朝鲜语:相同算法即可英语:识别空格分隔的词(如:LasVegas)把空格分隔的每部分当作“字”即可德语:识别连写的复合名词把字母当作“字”即可练习:实现基于词典的英语常用复词检测不需要提交2020年7月5日MachineLearningandDatamining