项目1_文本素材采集与处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第一篇文本素材采集与处理模块一文本采集模块二字体管理模块三文档编排模块四编码转换2模块一文本采集项目1挑选最适合自己的输入法项目2输入繁体字和生僻字项目3输入自定义短语项目4输入数学公式项目5摘录网页文字项目6摘录pdf文档文字项目7拍照识别长文稿3模块二字体管理模块三文档编排项目9制作应届生求职简历项目10排版《规划纲要》模块四编码转换项目11制作swf格式的《规划纲要》项目12转换繁体文章为简体文章项目8设计签名项目1挑选最适合自己的输入法5项目1挑选最适合自己的输入法1.1项目任务搜集键盘输入法信息,下载安装输入法输入文章使用体验通过3篇输入法测试文章记录录入时间花费和使用体验选择一种最适合自己的输入法1.2技能目标基于主题的网络资源获取和应用输入法安装、配置和管理个性化的输入法的选择标准输入法评测方法71.3项目实践1.3.1获得主流输入法信息1.3.2输入法安装与测评测试文章1计算机专业文章九十年代中期,全面超越486的新一代586处理器问世,为了摆脱486时代处理器名称混乱的困扰,最大的CPU制造商Intel公司把自己的新一代产品命名为Pentium(奔腾)以区别AMD和Cyrix的产品。AMD和Cyrix也分别推出了K5和6x86处理器来对付Intel,但是由于奔腾处理器的性能最佳,Intel逐渐占据了大部分市场。测试文章2古文[摘自《大学》]古之欲明明德于天下者,先治其国;欲治其国者,先齐其家;欲齐其家者,先修其身;欲修其身者,先正其心;欲正其心者,先诚其意;欲诚其意者,先致其知;致知在格物,物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平。测试文章3计算机专业词汇信息技术计算机应用技术软件工程数据通信计算机控制信息系统多媒体计算机重新启动布尔运算时间有界图灵机遗传规划算法安全识别身份验证边界检测循环冗余检验嵌入式计算机格式化容量图像识别高维索引获得主流输入法信息1.4知识目标1.4.1汉字输入方案1,自然输入2,编码输入汉字输入方案自然输入指汉字的扫描识别、手写识别和语音识别。扫描识别。通过扫描仪或数码相机等光学输入设备,将纸张上的图文信息输入计算机,识别软件提取扫描稿的字符形状,然后将形状映射为计算机文字的过程。扫描识别多用于大量文字的快速录入。汉字输入方案手写识别。用手写笔在手写板上写字,手写板将手写笔书写轨迹输入到计算机识别软件,识别软件根据采集到的笔迹之间的位置关系和时间关系信息来识别所写的字,并把结果显示在屏幕上。语音识别。语音识别包括命令控制和听写两种功能。命令控制是向计算机发一个简单的声音指令来操控计算机。听写是通过语音识别软件将麦克风输入的语音信号转换成文字的过程。汉字输入方案编码输入是目前普遍采用的汉字输入方法,它将汉字进行编码以便通过英文键盘输入汉字。编码输入可分为数字类、音码类、形码类和音形类4种类型。数字类。把汉字作为一个整体,采用一定的规则排定汉字的先后次序,用序号作为汉字的编码,例如国标区位码。这类编码输入方便,没有重码,可达到很高的输入效率,但由于编码记忆量很大,因而仅适合专职操作员使用,对于普通用户来说是无法接受的。汉字输入方案音码类。根据汉字的读音,把汉语拼音的声母、韵母与英文字母相联系,用英文字母作为汉字的编码,例如搜狗拼音输入法。这类编码非常容易学习,尤其适合于非专职操作员,但由于汉字的同音字极多,因而这类编码的重码较多,输入效率难以提高。汉字输入方案形码类。根据汉字是象形文字的特点,把汉字拆分成一些相对不变的基本结构,然后利用英文字母或数字对这些基本结构进行编码,例如搜狗五笔输入法。这类编码重码率较低,输入效率较高,但编码规则通常较多,必须通过一段时间的训练才能掌握。音形类。根据汉字的音和形两个信息编码,例如快速码,与形码或音码比较。这类编码的规则简单,重码少,但掌握这类编码需要拼音和字形两个方面的知识。1.4.2输入法术语1,简拼2,智能组词3,动态词频4,模糊音5,词库管理6,自定义短语7,网址与邮箱输入模式项目结果提交文件服务器地址及作业文件夹文件命名规规范:以学号姓名命名

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功