第5章5.1-文本与文本处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第5章数字媒体及应用5.1文本与文本处理5.2图像与图形及应用5.3数字声音及应用5.4数字视频及应用25.1文本与文本处理5.1文本与文本处理5.1.1文本的输入5.1.2文本的表示与字符的编码5.1.3文本文件的类型5.1.4文本的编辑处理与检索35.1文本与文本处理文字处理是计算机应用的基础计算机应用=使用计算机进行信息处理其中,文字信息的处理是各种计算机应用的基础文字数值语言音乐图像···信息的形态有多种45.1文本与文本处理传统的文字处理过程写作编辑排版印刷发行55.1文本与文本处理计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列“字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:(文本编辑器)文本编辑与排版格式化的电子文本(2)文本存储与传输(4)文本展现(文本阅读器)(5)文本处理(文本处理软件)(3)文本准备电子文本(1)(文字与图表的输入)65.1文本与文本处理5.1.1.文本的输入75.1文本与文本处理文本的输入文本的输入文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。文字输入方法概述人工输入。方法:键盘输入、手写笔联机识别输入、语音识别输入;特点:速度慢、成本高,不适合需处理大批量文字的应用。文字自动识别输入。将纸介质上的文本通过识别技术自动转换为文字的编码。方法:印刷体文字识别输入,手写体文字脱机识别输入;特点:速度快,效率高,有误差。85.1文本与文本处理汉字的键盘输入汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多)95.1文本与文本处理汉字键盘输入方法的比较类型原理举例优点缺点数字编码使用一串数字来表示汉字电报码区位码仅使用10个数字键难记忆字音编码把汉语的拼音作为汉字的输入编码智能ABC紫光微软拼音输入简单易学,适合于非专业人员重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用字形编码把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码五笔字形表形码郑码重码少、输入速度较快,适合于专业录入员、打字员使用缺乏统一的规范,编码规则不易掌握音形编码(或形音编码)采用字音及字形两种属性作为码元的汉字编码输入方法粤音输入法同上同时要掌握音、形两种取码方法或规则,对普通用户比较困难105.1文本与文本处理文字符号输入计算机的方法键盘输入自动识别输入字符信息的输入人工输入(1)数字编码,如电报码、区位码等,(2)字音编码,如智能ABC等(3)字形编码,如五笔字形和表形码等,(4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法115.1文本与文本处理文字符号输入计算机的方法键盘输入联机手写输入自动识别输入字符信息的输入人工输入•优点:–自然,流畅–小型化,适合移动计算•不足:–识别速度和正确性还需提高–书写要求还要降低125.1文本与文本处理文字符号输入计算机的方法键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入•优点:•自然,方便,适合移动计算•不足:•对说话人、说话方式、说话内容的适应能力要大大增强•识别速度和正确性还需大大提高135.1文本与文本处理文字符号输入计算机的方法印刷体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入扫描仪OCR数字文本纸介质文本文本的映象(image)•识别率已达到98%•功能:–简、繁体字混合识别–中文、西文混合识别–文字、表格混合识别–智能校对功能145.1文本与文本处理文字符号输入计算机的方法印刷体识别手写体识别键盘输入联机手写输入语音输入自动识别输入字符信息的输入人工输入–技术上非常困难,还无法实用–目前准备先突破工整的楷书手写体的识别!155.1文本与文本处理5.1.2文本的表示与字符的编码165.1文本与文本处理文本表示文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。175.1文本与文本处理字符、字符集及其码表文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符都使用二进位(code)表示,称为该字符的编码不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表185.1文本与文本处理西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(AmericanStandardCodeforInformationInterchange,简称ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:7位代码空间太小(解决方案:8位的扩充ASCII码)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码195.1文本与文本处理标准ASCII字符集及其码表b6b5b4b3b2b1b0012345670123456789ABCDEFb6b5b4b3b2b1b001101001101011205.1文本与文本处理汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素汉字的特点数量大;多个国家和地区使用;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?汉字在字符集中的排序方式确定使用的代码结构和代码空间215.1文本与文本处理常用的汉字编码字符集国家标准GB2312汉字扩充规范GBK国家标准GB18030台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)日本工业标准汉字字符集JISX0208-90韩国国家标准汉字字符集KSC5601-87225.1文本与文本处理一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码”235.1文本与文本处理GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示每个字节的最高位均为“1”在16位代码空间中的码位分布:第1字节第2字节007EA1FE0081A1FEGB2312图形符号汉字代码空间(6763个汉字)B0F716位的代码空间共有216=65536个码位245.1文本与文本处理GB2312汉字编码的不足之处GB2312-80汉字字数太少,无法满足一些特殊应用的需要:人名、地名;古籍整理、古典文献研究。没有繁体字(1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》)编码效率不高:(6763+682)/65536与ASCII码不兼容255.1文本与文本处理区位码、国标码、机内码汉字编码概念三者关系举例区位码GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。(1)区位码先转换成十六进制书表示;(2)国标码=区位码的十六进制表示+2020H;(3)机内码=国标码+8080H=区位码+A0A0H“大”:区位码为:2083;区号:20,位号:83;转换十六进制:1453H国标码1980年中国指定的用于不同的具有汉字处理功能的计算机系统见交换汉字信息时使用的编码GB2312-801453H+2020H=3473H;得国标码:3473H;机内码国标码因其前后字节的最高位未0,与ASCII冲突。如字符“1”,ASCII未31H,国标码为23H。汉字机内码采用将国标码每个字节高位置1作为汉字机内码。3473H+8080H=B4F3H;得机内码:B4F3H265.1文本与文本处理几种汉字编码的对比GB2312GBKGB18030UCS-2(Unicode)6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)27000多汉字(包括GBK汉字和CJK及其扩充中的汉字)2万多汉字双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示(UTF-8编码)1字节、2字节、3字节等不等长编码编码不兼容!保持向下兼容GBK00FF00FF20902汉字00FF00FF6763汉字GB231200FF00FF27484汉字GB18030275.1文本与文本处理例:IE浏览网页时文字编码的选择285.1文本与文本处理5.1.3文本的文件类型根据用途分为:简单文本、丰富格式文本和超文本三类。295.1文本与文本处理简单文本(纯文本)本书由南京大学出B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6版社(PublishingB0E6C9E7285075626C697368696E67HouseofNanjin20486F757365206F66204E616E6A696EgUniversity)出版6720556E697665727369747929B3F6B0E6文本的内容文本在计算机中的表示没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是.txt由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息举例:305.1文本与文本处理简单文本(纯文本)简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,不能插入图片、表格等,不能建立超链接。Windows附件中的“记事本”所创建的文件就是简单文本文件。315.1文本与文本处理丰富格式文本本书由南京大学出版社(PublishingHouseofNanjingUniversity)出版有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。举例:下面标题的格式为:中文用黑体,西文用ArialBlack体,居中使用HTML语言描述为:palign=centerfontface=黑体本书由南京大学出版社/fontfontface=ArialBlack(PublishingHouseofNanjingUniversity)/fontfontface=黑体出版/font/p用一对指出的是标记,如fontface=“黑体”和/font等,用于说明排版的格式和文字属性,它们不属于正文内容正文内容325.1文本与文本处理丰富格式文本文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。例如,

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功