【通用】听见智能会议系统建设方案(一体机)

xingzhonghai
0 ℃
2020-09-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

听见智能会议系统建设方案安徽听见科技有限公司2017年1月目录1.项目概述.............................................11.1.建设背景11.2.建设重要性12.建设内容及目标.................................23.产品施工条件.....................................34.建设方案.............................................74.1.系统概述74.2.软件详细配置84.2.1..........................中文语音转写引擎94.2.2..........................应用系统基本功能114.2.2.1.....................................用户管理错误!未定义书签。4.2.2.2.............................音频采集处理错误!未定义书签。4.2.2.3.............................实时语音转写114.2.2.4.............................历史语音转写124.2.2.5.....................................内容编辑124.2.2.6.....................................效果优化144.2.2.7.....................................内容展示154.2.2.8.....................................内容管理164.2.2.9.....................................全文检索错误!未定义书签。4.3.硬件设备配置174.3.1......................一体式智能会议主机错误!未定义书签。4.3.2..............................应用端主控电脑错误!未定义书签。5.项目报价...........................................19第1页1.项目概述1.1.建设背景随着信息时代的到来，海量语音的获取和存储能力愈发强大，基于会议办公的实际场景，会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。因此，结合会议会务场景对语音技术的实际应用需求，开展了基于会议场景下的语音技术应用关键技术研究，突破语音合成、语音识别、语音转写等核心技术，提升语音技术在会议会务场景中的应用水平，切实提升日常会议办公的工作效率和效果。1.2.建设重要性语音识别（SpeechRecognize）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别第2页技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来，语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发，可满足会议演讲、会议研讨、沟通交流、大型会议等一系列需要进行实时文字转写的场景。此部分项目的实施主要解决会议记要整理时间长、会议中心思想因记录人员的理解而可能出现的偏差、会议录音及关键点难以查找等问题。项目建成后当天即可完成所有相关会议记要的整理工作，同时，每一个人的发言均可记录在纪要当中，可有效减少因不同原因造成的会议中心内容理解的偏差，提升纪要整理的效率。2.建设内容及目标本项目计划选取1个会议室分别部署单机版听见智能会议系统，进行基于会议场景下的新型语音转写技术的应用，实现会议过程中音频实时转写成文字，辅助会议记录人员进行纪要的整理与校正，实现快速成稿，第3页在整体上打造样板化智能语音转写会议室。3.产品施工条件听见智能会议系统的部署环境整体要求如下：环境指标要求电源机柜要求音频接口麦克风视频接口1.5KW高度：6U深度：500MM对应机柜托盘一个需提供一路音频接口，支持卡侬公或大三芯或双莲花需配置麦克风对每个说话人声音进行采集如需上屏，需提供投屏接口，支持HDMI或VGA详细说明如下：环境要求智能会议系统采用专业定制一体机的硬件形态，一体机的安装机柜需要6U空间，安装于正常室外室内即可，设备深度为500MM，系统本身局域网组建自带，网络第4页带宽在100M以上，主控PC需要连接局域网下使用，整套设备局域网下运行即可。同时需要1.5KW电源。音视频需求该系统是基于音频基础上实现语音转写，麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集，需要现场音响设备（调音台或相关音频设备）提供会议话筒音频供转写，同时设备接口支持卡侬公、大三芯（6.5）、双莲花输入。如有展板上屏需求，需要会议室内配有投影仪或者电视机，且具备VGA或者HDMI接口任意一种，展板通过连接投影仪或者电视机进行投屏展示。4.系统连线图听见智能会议系统的配套硬件设备，其形态为：通过国家CCC认证和专业定制一体机+应用端主控电脑。一体式智能会议主机为讯飞听见专业定制设备，集成了包括服务节点、应用节点、声卡、显示器、路由器等部件，用于部署引擎等核心能力软件，并提第5页供录音服务处理、数据传递等能力；主控端笔记本电脑主要用于部署客户端软件，控制会议的开始和结束，提供软件各个功能的操作。会议室现场的发言音频输出给一体机，同时如需显示，一体机支持显示输出，主控电脑通过网线与一体机连接，整套产品即可使用。一体机整体外观图示意图及背后面板图如下：参数说明：第6页整机电源：AC100-240V700W；服务器节点：XEON2.6G20M2011P8CORE，E5-2620V3*2；32GDDR4REG/ECC；接口2*千网口（IntelI210AT），1*RS232，GPIO，Watchdog，VGA-切换器；USB：6*USB(前置1*USB2.0+后置（2*USB2.0/2*USB3.0）；应用节点：CORE3.2G6M1151P4COREI5-6500；8GDDR4，2*千兆网口（Intel82579V）1*千兆网口（Intel82579V），1*RS232，1*VGA，1*PS2，外接：DVI转HDMI；坦克声卡：一个麦克风输入并自带音量增益旋钮,XLR/6.3mm混合式接头一个乐器输入并自带音量增益旋钮,6.3mm接头4个模拟输入(RCA接头)一组唱盘输入并内建RIAA等化放大及自带音量增益旋钮6个模拟输出(RCA接头)一个耳机接孔(6.3mm接头)并自带音量增益旋钮一个光纤数字输出/输入一个同轴数字输出/输入一组MIDII/O。第7页产品连线说明：本产品为一体机形态，只需要接通一根电源线、一根音频线、一根视频线，并通过一根网线连接主控，就可使用。5.建设方案5.1.系统概述听见智能会议系统由软件、硬件共同构成，实现在会议场景下的实时音频或录音采集，并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回第8页听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果；同时，用户可以使用全文检索功能方便检索历史音频。系统具备会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能。一体机主控电脑实时字幕麦克风5.2.性能参数系统关键性能指标如下：1)转写结果能够实时上屏展示；2)转写结果能够音字对照、编辑校正；3)普通话转写指标：安静环境下的标准普通话转写正确率≥90%；4)系统响应指标：常规页面操作的响应时间≤5秒；第9页5)转写效率指标：实时语音转写效率≤500毫秒。5.3.软件功能配置5.3.1.中文语音转写引擎听见智能会议系统需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术，通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息，有史以来第一次实现了识别十个英文数字的语音识别系统-Audry系统。八十年代，Bell实验室的Rabiner等科学家将原本艰涩难懂的隐马尔科夫模型（HiddenMarkovModel-HMM）理论工程化，形成了较为完善的概率统计模型体系，识别性能也得到了很大的提高。2006年以来DeepLearning理论和技术成为了模式识别领域的一个热门研究方向，G.E.Hinton等深入研究了深度置信网络（DeepBeliefNetwork-DBN）以及第10页深度神经网络（DeepNeuralNetwork-DNN）等模型结构，微软通过与Hinton合作率先将DNN应用于语音识别任务，识别性能取得了显著提升。此后谷歌、蒙特利尔，以及IBM又将循环神经网络（RecurrentNeuralNetwok-RNN）成功应用于语音识别领域，特别是长短时记忆（Long-ShortTermMemory）神经网络结构，取得非常出色的语音识别性能。加上目前图形处理器（GPU）计算能力的提升，以及互联网时代大规模标注数据获取成为可能，基于深度学习的语音识别技术已经在多个领域达到实用水平。传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互，听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力，具体包括中文语音转写引擎与英文语音转写引擎，本系统需要完成中文语音转写引擎的建设。第11页5.3.2.应用系统基本功能听见智能会议系统，可以实现在会议、教学、演讲等场景下的实时音频或录音采集，并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果，可人工进行角色分离；同时，用户可以使用全文检索功能方便检索历史音频。5.3.2.1.实时语音转写听见智能会议系统需要通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作，需要由强大的音频采集处理模块。系统讲通过使用特定的录音服务，通过麦克风收集后，送达后台服务端完成编码工作，实时上传到系统，供后续的转写文字等功能使用，同时保存到内容管理模块中。系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别，并持续进行转写结果文本内容第12页的输出。5.3.2.2.历史语音转写相比于实时语音转写模块，历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力；用户可以通过系统提供的功能按钮，导入历史音频并实现快速离线转写；支持音频批量导入。图：历史音频转写编辑效果图5.3.2.3.内容编辑在实时语音转写过程中用户可以实时对转写出的文本结果进行编辑，并进行重点内容标记。在实时编辑的过程中采用延时播放的策略，用户可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持第13页选择查看原始结果，对比修改，方便快捷，会议结束后即可直接成稿,并根据重点内容，整理导出会议纪要。具体功能包括：延时播放：在实时语音转写过程中,识别结果展现之后再开始连续播放音频，即用户在看到转写文本的时候，同步听到对应的音频,使得校对和编辑更加便利。重点内容标记：在实时语音转写过程中或者暂停和结束时，用户均可以选中文本来进行重点内容的标记，已标记的文本也可以进行修改和标记取消，方便整理会议纪要，会议结束会后即可或直接成稿。音字对照：在实时语音转写暂停的时候，用户如果对于有些内容没有听清，对于文本内容不确定的情况下，双击原始结果即可听