实习报告关于在安徽科大讯飞科技信息科技股份有限公司单位从事语音资源整理数据标注的实习报告实习单位:安徽科大讯飞信息科技股份有限公司实习时间:实习岗位:语音资源整理数据标注学生姓名:苏晓文学号:1042152131院系:信息工程学院专业:信息管理与信息系统年月日关于在安徽科大讯飞科技信息科技股份有限公司单位从事语音资源整理数据标注的实习报告一、实习单位及岗位简介(一)实习单位的简介安徽科大讯飞信息科技股份有限公司是一家专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业。公司智能语音核心技术代表了世界的最高水平。2008年,科大讯飞在深圳证券交易所挂牌上市,股票代码:002230。科大讯飞成立于1999年,是我国产业化实体中,在语音技术领域中基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司。语音技术实现了人机语音交互,使人与机器之间沟通变得像人与人沟通一样简单。语音技术主要包括语音合成和语音识别两项关键技术。让机器说话,用的是语音合成技术;让机器听懂人说话,用的是语音识别技术。此外,语音技术还包括口语评测、语音编码、音色转换、语音消噪和增强等技术,有着广阔应用空间。科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”,并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。2003年、2011年,科大讯飞两次荣获“国家科技进步奖”;2005年、2011年两次获得中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”。2006年至2012年,已连续七届英文语音合成国际大赛(BlizzardChallenge)荣获第一名。2008年至2011年,连续四年在国际说话人、语种识别评测大赛中名列前茅。2011年,“国家智能语音高新技术产业化基地”、“语音及语言信息处理国家工程实验室”相继落户合肥,有利于进一步汇聚产业资源,提升科大讯飞产业龙头地位。基于拥有自主知识产权的世界领先智能语音技术,科大讯飞已推出从大型电信级应用到小型嵌入式应用,从电信、金融等行业到企业和消费者用户,从手机到车载,从家电到玩具,能够满足不同应用环境的多种产品。科大讯飞已占有中文语音技术市场70%以上市场份额,开发伙伴超过8000家,以讯飞为核心的中文语音产业链已初具规模。随着移动互联网“语时代”的到来,科大讯飞率先发布了全球首个提供移动互联网智能语音交互能力的“讯飞语音云”平台,并持续升级优化。基于该平台,科大讯飞相继推出了“讯飞语音输入法”、“讯飞语点”等示范性应用,并与广大合作伙伴携手推动各类语音应用深入到手机、汽车、家电、玩具等各个领域,引领和推动着移动互联网时代大潮下输入和交互模式的变革。(二)实习岗位的简介我所从事的是数据标注,这是一份看似简单却充满技术性的工作,该工作主要针对公司的产品需求,按照资源的整理格式,通过网络及相关渠道进行大量的文本资源的收集、分类和整理。整理的主要内容是对资源名称进行别称简称及是否歧义的整理。根据规范对文本信息资源进行标注,内容资源数据的后期制作及数据标注工作。公司实行每周五天,每天八小时工作制。首先是三天的试用期,主要是适应工作环境,了解工作内容,学习工作方法,熟悉公司的各个部门。三天后办理入职手续领取工作证,签劳动合同。在主管的安排下我被分到了语音资源部数据标注组,我拥有自己的格子间和办公电脑,我们所做的工作都是为了讯飞语点服务的。首先我们的组长向我介绍了我们的组员以及它们各自所分配的任务,并且告诉我工作期间的交流都是通过飞信进行的,还有上班下班的时间,吃饭时间及打卡的时间,上下班的班车路线等。然后他向我介绍了工作的内容,如何登陆讯飞内部网络,如何进入标注平台。接着他让我先学习标注规范和平台的使用说明了解我们的工作。每天早上要签到,下班前要及时撰写工作日报。最后他向我强调了公司的规章制度以及我入职之后所要从事的工作,包括线网内的数据抓取和修改,测试集的修改与汇总,数据的标注,语音的测试,语音识别,资源整理等。同时,在空余时间要协助其他组完成相应的任务,相互合作共同进步,定期和本组同事相互交流相互按时撰写日报和工作心得。二、实习内容及过程1、标注标注规范包括手机语点标注规范,车载标注规范,商旅标注规范,电视标注规范等。在做一项任务之前都要了解他的规范,标注规范是进行语点标注的准则,标注规范由协议框架协议组成,语义框架包括四部分内容:focus,action,object,content。我们判断一句话的内容找出他的兴趣点也就是所表达的意思来选择相关的协议,再看看根据兴趣点所发出的动作和对象来辨别是否符合标注规范的要求。过一段时间我们会根据实际的需求对标注规范进行,以适应当前的实际需求,在修改的过程中有些业务需要扩充,有些业务需要转移,甚至有时会增加一些新的兴趣点等等。此规范主要是针对生活中的一些相似或者相同场景进行细化从而避免由于引擎跑错地方而导致语点不能更好地服务于用户,再者一些语句对于业务来说是错误的或者是一些闲聊的话语使得引擎无法识别从而不能满足用户的需求。由于时代在发展,科技在进步我们的标注规范也在不断的更新,我们会每隔一段时间更新一次标注规范,是为了更好地服务于相关工作的进行。在对数据进行标注之前,掌握标注细则是非常重要的,它关系到我们后期标注工作的正确性和可靠性,每天的工作中我都会先熟悉标注细则然后再进行标注,我们标注数据的准确性可能会对上面技术部门的工作造成一定的影响。2、语音合成技术语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。我们会每天接听大量的语音信息,把语音信息中不清楚的信息保留下来进行分析与修正。3、语音识别技术自动语音识别技术(AutoSpeechRecognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。我们与机器对话让机器辨别我们所要求的内容并进行相应的操作。4、语音评测技术语音评测技术,又称计算机辅助语言学习(ComputerAssistedLanguageLearning)技术,是一种通过机器自动对发音进行评分、检错并给出矫正指导的技术。语音评测技术是智能语音处理领域的一项研究前沿,同时又因为能显著提高受众对语言(口语)学习的兴趣、效率和效果而有着广阔的应用前景。5、自然语言自然语言是几千年来人们生活、工作、学习中必不可少的元素,而计算机是20世纪最伟大的发明之一,如何利用计算机对人类掌握的自然语言进行处理、甚至理解,使计算机具备人类的听说读写能力,一直是国内外研究机构非常关注和积极开展的研究工作。把听到的语音信息转化成文本信息,制作、优化、整理文本资源。6、线网数据的抓取和修改一个好的产品需要不断的升级和优化,我的任务就是每天从全国各地的数据中随机抓取一些对那些引擎跑错或者不符合相应要求的典型句式标注出来,交给技术人员进行优化,并且帮助技术人员减轻数据量,使他们处理一些有价值的数据。我每天要处理至少6000条数据但是不符合条件的只有几百条,这要求我有足够的细心和整理分析数据的能力,对于不符合条件的数据我要用不同的颜色标注出来,遇到难以判断的问题必须找出规范进行核对或者和其他同事进行交流,每一份数据整理好之后要撰写错误问题反馈表,找出其中具有代表性的问题提交给技术部门使他们可以更好地对数据进行完善,有些时候技术部门觉得提交的数据没有意义,从而必须得重新抓取数据重新判断。几个星期下来,我学到了很多测试相关的专业知识和方法。之后的实习期间,我又接触到电视语点,车载语点,包括在线语音翻译服务,SMS点播及时翻译服务,手机客户端软件的测试等。虽然测试的流程还是一样的,但是项目不同,就需要我们扩充不同的知识,这也是测试标注工作中的一大乐趣所在。三、实习收获与体会科大讯飞的合作理念:“携手合作,共享产业成就”。始终坚持获取语音核心价值、不与开发伙伴直接竞争的原则,与众多伙伴精诚合作,共同推动语音产业的早日爆发。历史使命:以人为本,创造信息时代信息获取和沟通的最佳方式。这次实习使我对讯飞语点中的数据测试与标注有了进一步的认识,对数据标注与测试的方法也更加熟悉。在实习期间,我也利用工作之余了解了科大讯飞的语音产品,希望可以增长这方面的知识。开始标注和测试工作是比较累比较吃力,作为一个文科生第一次去涉及理科的东西而且是这么高技术的产品,难免会遇到很难弄懂的问题,虽然繁琐,但是当任务完成的时候,也是非常有成就感的,想想那些付出都是值得的。标注和测试工作本来就是非常繁琐,枯燥的,因为每次走的流程都是相同的,但是要做好就不这么容易了,不仅要熟悉标注规范,很多细节上的问题都要清楚,而且也要有一定的知识储备,所以我还有很多方面要加强学习。而且做这个职业,细心和耐心也是不可或缺的。做到了这些,也要学会从工作中寻找乐趣,失去快乐的工作又怎么会长久呢?凡是职业都是具有趣味的,只要你肯干,愿意干,趣味自然就会发生。通过在科大讯飞的实习我深深的感受到以下几点:一、努力学习,不断提升理论素养。做任何事情都需要细心,恒心和毅力,那样才能成功。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。我积极响应单位号召,结合工作实际,不断学习理论、技能知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升能力,以广博的社会知识拓展视野。二、提高工作积极性和主动性实习期会很快过去,是开端也是结束。展现在自己面前的是一片任自己驰骋的沃土,在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续为社会创造更多的价值。感谢单位领导和部门领导以及主管们对我的支持和帮助。三、努力实践,进行角色转化。“理论是灰色的,生活之树常青”,只有将理论付诸于实践才能实现理论自身的价值.也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是通过实践活动来实现的,也只有通过实践才能锻炼人的品质,展现人的意志。毕业实习是大学生毕业必经的一个过程,它让我认识到自己角色的转变,自己不应该再是什么都不需要担心的大学生,而是一个为自己未来努力工作、需要时刻认识到自己的责任并在日常的生活中体现自己的生存价值。在日常的生活中要懂得自己的监督,没有老师日常的灌输和同学在身边的提醒,必须自己认清事情的事实而避免出现错误。在工作中努力运用自己的自学能力,将不知道或者曾经是错误的知识更新并学会运用,没人教授的情况下自己的自学能力更是好好工作的关键,只有自己明白理解了才会体现出它本身的价值。在社会的大家庭中,没有一个人是独立存在的,懂得人际关系的处理问题也是我在实习中要获取的能力。实习期间,开始与各种各样不同的人打交道,将自己新入人员的劣势尽量的降低,在人际关系上保持良好的发展状态。和每个人都处理好关系似乎也不是很容易,在必要的时候还是要低调行事,学会观察身边的一切情形,还是应该以努力工作为前提,在不必要的时候少说话。处理好自己的人际关系就会有好的工作环境,而一个好的工作环境往往会影响一个人的工作状态,并更利于自己信息的获得和公司未来的发展。在工作的过程中也培养了认真严谨的态度,在学校学习时总是会出现这样那样的问题,有些操作很容易却不懂得操作的,所以就算自己错误了只要按指示更改就可以了。但在工作的过程中没有人会提示你的错误,一点点的