大连理工大学企业专业实践报告学部(院):信息与通信工程学院专业:学生姓名:学号:指导教师:完成日期:2018.03.20大连理工大学DalianUniversityofTechnology企业专业实践报告11.实践目的作为还没有踏入社会的研究生,面对自己未来的生活与工作,我们心中是有很多的疑问的,所以需要到真正的环境中去感受一下自己将要从事的工作到底是怎样的。本次企业实践,主要就是为了让我们更深层次的接触社会,运用所学的专业知识认识企业实践活动,了解企业运行环境,认识企业管理业务流程,为将来走上工作岗位打好基础,同时可以加强和巩固理论知识,发现和运用所学知识分析问题和解决问题;锻炼自己的实习工作能力,适应社会能力和自我管理能力。通过实践我们也可以认识了解自己,发现不足,提前做好自己的职业规划。2.实践单位大连共进科技有限公司通讯地址:大连市沙河口区五一路267号软件园17号楼1013.实践背景与意义随着数据和计算规模的增长,机器学习现在已成为大数据分析的主要技术之一,而且在许多领域都取得了不错的成果。然而,传统机器学习与人的学习相比,还有很多不足。根据标记样本的使用情况,标准机器学习方法可以分为监督学习,半监督学习和无监督学习三种类型。监督学习是通过标记的训练数据来训练一个最优分类模型,它要求训练数据和测试数据的分布必须相同。无监督学习是对没有标记的训练样本进行学习,以发现训练样本集中的结构性知识,它也要求领域的数据分布相同。半监督学习是监督学习与无监督学习相结合的一种方法,它同时使用大量的未标记数据和少量标记数据来进行模式识别工作,但是也要求标记数据和未标记数据来自相同的领域。综上,标准机器学习要求训练数据和测试数据分布必须相同,因此,在实际应用中,这种限制给机器学习带来了很多困难。为了改善目前机器学习方法的缺点,人们开始研究机器学习中的迁移学习。简单来说,迁移学习就是结合已经学到的知识,将已有的知识应用于新事物的学习上,实际上是一种对已有知识的迁移,即将已有的知识应用到其他领域。例如,如果一个人能够熟练地使用C编程语言技能,那么在学习其他编程语言如MATLAB、C++等时也会很快入门并熟练,这些能力是机器学习所不具备的。迁移学习,也可以称为领域适配或者归纳迁移,它的目的是将在有大量标注的辅助领域中学习到的知识或模型应用于不同但相关的领域或问题中。迁移学习方法利用不同任务之间的相似性将源数据的判别信息迁移到目标域,不仅实现了对已有知识的利用,而且在有限的条件下能够提高学习的效率。迁移学习的主要思想是从有大量标记数据的辅助领域中迁移知识结构,以完成或改进目标域或目标任务的学习性能[3]。迁移学习与主动学习和半监督学习不同,主动学习与半监督学习标注数据稀缺。而在迁移学习中,不需要训练数据和测试数据服从独立同分布,从而使涉及到的领域服从不同的边缘概率分布或条企业专业实践报告2件概率分布。在实际应用中,由于技术限制,容易使模型的训练数据和泛化的目标数据存在分布差异。除此之外,在许多建立分类模型训练的应用环境中,可能没有足够的标记数据,这就需要人工对这些数据进行标注以获得分类器需要的训练数据。而手动标注数据既耗时又费力,这是实际应用中的一个难题,然而如果不满足这些条件分类器的性能就会降低,因此充分利用相关领域的分类信息来帮助解决目标域的分类任务是非常有意义的。迁移学习由于放宽了训练数据和测试数据分布相同这一假设,可以将相关领域的知识或者模型迁移到目标领域来帮助目标领域的学习任务,这样就可以解决跨域学习问题。目前,迁移学习已经成为机器学习研究领域的热点之一。在提高机器学习效率,提高现有算法性能和算法实用性方面,迁移学习具有重要意义。迁移学习被认为是在最低成本的人工监督下的机器学习的一种新策略。在计算机视觉,自然语言处理和生物信息学等标注数据稀缺或者无标注数据的目标领域,迁移学习具有很强的现实需求。4.问题描述给定一个标记的源域和学习任务,一个无标记的目标域和学习任务,假设它们的边缘概率和条件概率都不相同,学习一个新的特征表示使得边缘概率分布和条件概率分布之间的差异同时最小化,从而利用源域中的知识来提高目标域中的目标预测函数的性能。大多数现有方法只最小化领域间的边缘概率分布,而仅匹配边缘分布并不能获得足够好的的迁移学习性能,因为源域和目标域间的判别分类面很有可能并不相同,领域间的条件分布距离也应最小化。虽然目标领域的边缘概率分布可由核密度估计得到近似拟合,但是因为目标域中没有标记的数据,所以条件概率分布无法准确估计。根据概率论,主要的计算问题是最小化联合概率分布间的距离,通过同时最小化边缘概率分布之间的距离以及条件概率分布之间的距离,实现联合概率分布的适配。5.实验方法首先需要对源域和目标域的特征进行降维重构,在源域和目标域的样本中学习得到一个共同的跨域子空间,即通过非线性降维,将源域和目标域高维数据通过正交变换映射到低维的子空间,在这个子空间中源域和目标域拥有相近的分布且每个样本都有紧凑的特征表示。为了简单和一般性,选择主成分分析(PCA)进行数据重建。PCA是一种线性映射方法,降维后的表示是由线性映射生成的,而且PCA方法是基于观测数据的协方差矩阵的计算来对数据进行处理的,仅涉及数据的协方差矩阵,即二阶统计特性,它忽略了数据之间高于二阶的高阶统计特性,所以在变换后的数据中可能仍然存在高阶冗余信息,导致抽取的特征并不是最优的。KPCA是线性PCA的非线性推广,它首先通过非线性映射将原本线性不可分的样本输入空间映射到一个线性可分的高维特征空间,获取数据的非线性特征,然企业专业实践报告3后在这个新的特征空间中完成主成分分析。KPCA不仅适合于解决非线性特征提取问题,而且它还能比PCA提供更多的特征数目和更好的特征质量。迁移学习需要解决的一个主要问题是减小源域和目标域之间的差异性,领域的边缘概率分布体现无标数据的聚类结构,领域的条件概率分布体现标注数据的判别结构。要通过最小化边缘概率分布以及条件概率分布之间的距离实现联合概率分布适配,首先要定义适当的距离度量函数。采用最大均值差异(MMD)来度量通过KPCA降维得到的子空间中源域与目标域之间的分布差异。MMD定义为源域与目标域在无穷维核空间中的均值距离,它通过计算源域数据与目标域数据的总体均值之差来表示源域与目标域的分布距离,距离越大,领域间的分布差异越大,距离越小,领域间的分布差异越小。MMD的原理是对每一个样本进行投影并求和,利用和的大小来表示两个数据的分布差异。为了实现有效的迁移学习,需要同时最小化跨域的边缘概率分布和条件概率分布的差异。为了评估算法的有效性,应用算法对图像分类问题进行了广泛的实验。USPS,MNIST,COIL20,Office和Caltech是广泛应用于评估视觉域适配算法的五个基准数据集。MNIST是一个手写数字的数据库,它是NIST数据库的一个子集,这个数据库由四部分组成,分别是一个训练图片集,一个训练标签集,一个测试图片集,一个测试标签集,训练集有60000个样例,即文件中包含60000个标签内容,每一个标签的值为0到9之间的一个数字,测试集有10000个样例。这些图像数据都保存在二进制文件中。每个样本图像的大小都是2828的,也就是每个图片都有2828个像素。USPS数据集由大小为1616的7291张训练图片和2007张测试图片组成,也包含10个类别,每个类别为0到9之间的一个数字,这些数字图片已经被标准化处理过,即将数字置于图像中心,并使图像大小都相同。实验中通过在数据集USPS中随机抽取1800张图片作为源数据,并随机抽取数据集MNIST中的2000张图片作为目标数据来构建一个分类任务USPS→MNIST,交换源域和目标域可以获得另一个分类任务MNIST→USPS。为了更有效地进行实验,需要对图片进行预处理,即将所有图片均匀地重新调整为大小为1616,编码了图片的像素灰度值信息,每幅图片用256维的特征向量表征。因此,源域和目标域数据可以共享相同的特征空间和类别空间。COIL20数据集是物体图片数据集,图片中包含20个不同物体在不同角度拍摄的1440张图片。当物体在转台上顺时针旋转时,每转5度拍摄一张照片,这样每个物体就有72张图片。每张图片的大小是3232,表征为1024维的特征向量。在实验中,将数据集分为两个互不相交的子集COIL1和COIL2,COIL1包含物体旋转角度为第1和3象限时拍摄的所有图片,COIL2包含物体旋转角度为第2和4象限时拍摄的所有图片,因此,子集COIL1和COIL2因为物体旋转角度的不同而服从不同的分布。通过选择COIL1中的所有720张图片作为源域数企业专业实践报告4据、COIL2中的所有720张图片作为目标数据来构建一个分类任务COIL1→COIL2,然后交换源域和目标域,决以获得另一个分类任务COIL2→COIL1。Office是越来越受欢迎的视觉域适配基准数据集,该数据库共有4652张图片和31个类别标签,它包含三个对象领域,即Webcam(网络摄像头拍摄的低分辨率图片),DSLR(数码单反相机拍摄的高分辨率图片)和Amazon(从在线商家下载的图片)。Caltech-256[35]是用于对象识别的标准数据库。该数据库包含256种类别的物体的大约30607张图片。对所有图片抽取SURF特征,并将其向量化为一个800维直方图表征,然后将所有向量进行标准化处理,即都进行减均值除方差的归一化处理,其中使用来自Amazon的图片子集上的K均值计算的码本生成直方图码表。通过随机选择两个不同的领域作为源域和目标域,可以构建12个跨域对象识别任务。算法为源域和目标域提供了新的特征表示,之后采用1近邻分类器来进行图像分类。为了验证算法的有效性,将算法与图像分类的两种基础方法进行比较。两种基础方法分别为1近邻分类器和PCA+1近邻分类器。对标记的源域数据进行训练,并对未标记的目标数据进行测试;在所有数据上执行PCA和该算法,然后对标记的源数据进行分类器训练,以对未标记的目标数据进行分类。在实验中,由于目标领域没有标注数据,所以无法使用交叉验证方法自动选择最优模型参数。因此,可以通过经验性地遍历参数空间以获得最佳参数设置来评估所有方法,并将每种方法在各种参数设置下的最佳结果用于有效性对比,使用分类模型对目标领域的无标测试数据的分类准确率来作为评价标准。经过大量的实验以及对比和分析,可以表明即使领域间的分布差异非常大,算法对于跨领域的图像分类问题是有效的,可以显著优于几种基础的适配方法。且随着子空间最优维度和正则化参数的变化,每个分类任务的分类准确率的变化曲线都比较平稳,这说明算法可以在广泛的参数值下实现最佳性能。6.算法改进虽然联合分布适配的方法能够提高分类的准确率,但是由于只从特征层面考虑迁移学习的效果,而没有考虑源域存在的不相关的实例,即没有从实例方面考虑迁移学习效果,且只是简单地将边缘概率分布和条件概率分布适配,没有考虑两种分布所占的权重,所以考虑加入权重调节因子来调节边缘概率分布和条件概率分布所占的权重;并对源域的实例进行重新加权,加大与目标域实例相关的源域实例的权重。为了评估改进算法的有效性,仍然采用由USPS,MNIST,COIL20,Office和Caltech这五个图像数据库构成的分类任务进行实验。综合实验结果和分析表明,改进的算法对于跨领域的图像分类问题是有效的,可以显著优于几种基础的适配方法。且随着子空间最优维度和正则化参数的变化,每个分类任务的分类准确率的变化曲线都比较平稳,这说明算法可以在广泛的参数值下实现最佳性能。企业专业实践报告57.实验结论随着数据和计算规模的增长,机器学习现在已经成为大数据分析的主要技术之一,然而,标准机器学习要求训练数据和测试数据分布必须相同,这种限制给机器学习带来了很多困难。而在迁移学习中,不需要训练数据和测试数据服从独立同分布,从而使涉及到的领域或任务可以服从不同的边缘概率分布或条件概率分布。大量的实验结果表明,联合分布适配方法以及对联合分布适配方法的改进在同