自然语言理解-词典素材

月下猛兽
1 ℃
2020-01-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

词典词典与词典编纂的研究词典学lexicologyTheoryanddescriptionoflexicalinformation计算词典学computationallexicologyformalmodelingoflexicalinformation词典编纂学lexicographyConstructionofdictionaries(databases,handbooks)计算词典编纂学computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing机读词典与人读词典人读词典（HumanReadableDictionary）格式不规范数据完整性和一致性不好非结构化机读词典（MachineReadableDictionary）格式规范数据完整性和一致性较好结构化人读词典（demo）金山词霸story中古英语storie古法语estoire拉丁语historian-ries(1)故事，小说；传闻；轶事Pleasereadusastory!请给我们读个故事！(2)谎话，假话(3)（书籍、电影、戏剧等的）情节(4)（报刊、杂志文章的）素材，题材机读词典的分类按信息类型分类语法词典语义词典（包括同义词典）双语词典…….按领域分类通用词典专业词典（术语词典）专名词典……汉语语法信息词典开发单位：北京大学计算语言学研究所参考文献：俞士汶等（1998）《现代汉语语法信息词典详解》，清华大学出版社、广西科学技术出版社1998年版。规模：7万多词条总库词性库名词时间词处所词方位词数词量词区别词代词动词形容词状态词副词介词连词助词语气词前接成分后接成分成语简称略语习用语语素标点符号词性分库动词代词汉语语法信息词典·总库汉语语法信息词典·动词库汉语语法信息词典·谓宾动词分库新华社词语数据库全库分为中文和外文两个大类，主要包括中文新闻库、经济信息库、证券库、人物库、组织机构库、专题资料库等中文数据库，还包括XinhuaNewsBulletin、Who’sWhoinChina等英文数据库。共有28个库100多个子库，数据量达80多亿汉字，并以日均150万汉字的速度增长。新华社词语数据库·国际组织“２０００年问题”联合委员会/jointyear2000council/International“４·１９”运动/movementapril19/Colombia“阿尔法６６”/alpha66/Cuba“俄罗斯地区”社会联盟/regionsofrussiagroup/Russia“法中－２０００年”协会/france-chinaassociationfortheyear2000/France“繁荣”党/prosperity/Russia“光明的日本”国会议员联盟/parliamentaryunionforabrightjapan/Japan“基地”组织/alqaeda/SaudiArabia《财富》杂志/fortune/USA《朝日新闻》/asahishimbun/Japan国际献血组织联合会/internationalfederationofblooddonororganizations/International国际宪法学协会/internationalassociationofconstitutionallaw/International国际香料集团/internationalspicegroup/International经济和外贸部/ministryofeconomyandexternaltradeofsyria/Syria经济和外贸部/ministryofeconomyandforeigntradeofegypt/Egypt新华社词语数据库·人名知网（Hownet）作者：董振东董强网站：概念描述举例NO.=017144W_C=打G_C=VE_C=~网球，~牌，~秋千，~太极，球~得很棒W_E=playG_E=VE_E=DEF=exercise|锻练,sport|体育其中DEF是核心，采用特定的“知识描述语言”知网（Hownet）2打017144exercise|锻练,sport|体育男人059349human|人,family|家,male|男高兴029542aValue|属性值,circumstances|境况,happy|福,desired|良生日072280time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺写信089834write|写,ContentProduct=letter|信件北京003815place|地方,capital|国都,ProperName|专,(China|中国)爱好者000363human|人,*FondOf|喜欢,#WhileAway|消闲必须004932{modality|语气}串015204NounUnit|名量,&(grape|葡萄),&(key|钥匙)从良016251cease|停做,content=(prostitution|卖淫)打对折017317subtract|削减,patient=price|价格,commercial|商,(range|幅度=50%)儿童基金会024083part|部件,%institution|机构,politics|政,#young|幼,#fund|资金,(institution|机构=UN|联合国)知网（Hownet）3义原总数：1500多个义原分类：共8类基本义原事件、实体、次要特征属性、属性值、数量、数量值语法义原：描述语法特征，如POS语法关系义原：描述意义关系，类似于格关系动态角色动态属性知网（Hownet）4义原的上下位关系构成树结构-entity|实体├thing|万物…├physical|物质…├animate|生物…├AnimalHuman|动物…├human|人│└humanized|拟人└animal|兽├beast|走兽…知网（Hownet）5知网中的关系同义词词林1梅家驹等，1983，上海辞书出版社为克服写作和翻译时的词穷现象而编写目前广泛应用于自然语言处理中收词近7万（按义项统计）按义项编排12大类94中类1428小类3925词群词群内部的词是同义词大类、中类、小类之间不一定是上下位关系（有些是领域）同义词词林2大类：A中类：g小类：10词群：01最小同义词集：01，02，03catewordAa010101人Aa010101士Aa010101人物Aa010101人士Aa010101人氏Aa010101人选Aa010102人类Aa010102噍类Aa010102生人Aa010102横目Aa010102圆颅方趾Aa010102方趾圆颅Aa010103人手Aa010103人员Aa010103人口Aa010103人丁Aa010103口Aa010103丁口Aa010103食指Aa010104劳力Aa010104劳动力Aa010105匹夫Aa010105个人WordNet1网址：~wn/开发单位：普林斯顿大学心理语言学实验室初衷是作为研究人类词汇记忆的心理语言学成果在自然语言处理中得到广泛的应用免费的在线词汇数据库世界很多语种都开发了相应的版本各种欧洲语言：EuroNet汉语：CCD（ChineseConceptDictioanry）WordNet2同义词集Synset用一组同义词的集合Synset来表示一个概念每一个概念有一段描述性的说明关系上下位关系（hyponymy，troponymy）同义反义关系（synonymy，antonymy）部分整体关系（entailment，meronymy）……Wordnet3规模名词：80,000words,60,000synsets形容词：16,000synsets动词：11,500synsets还在不断发展之中WordNet4名词概念的组织：WordNet5形容词概念的组织：WordNet6WordNet7词典检索算法1词典检索算法的性能评价时间复杂度空间复杂度检索方式直接用词语检索检索句子中某个位置开始的所有词检索句子中某个位置开始的最长词模糊检索……增量式索引词典检索算法2两个问题索引结构查找算法一种索引结构可以对应不同的查找算法词典顺序索引索引结构简单，占用空间小不能实现增量式索引：每增加一个词需重新排序词典顺序索引的查找算法整词二分查找时间复杂度O(log2N)无法按前缀查找改进的整词二分查找时间复杂度O(log2N)可以实现按前缀查找词典散列索引索引结构简单，占用空间小（比顺序索引稍大）可以实现增量式索引词典散列索引的检索算法利用散列（hash）函数直接定位效率高：常数不能按前缀查找冲突的解决使用冲突队列使用再散列散列函数（hash）的选择算法改进：逐词散列，可以实现按前缀查找词典分级索引将词语分成若干部分，为每一部分分别建立索引在分级索引中，每一级索引都可以采用各种不同的索引和查找算法对于汉语而言，第一级索引一般使用词语的首字，所以又常称为首字索引。汉语的首字数量有限，可以使用直接定位法，效率最高，空间也不大汉语词典按首字顺序索引首字二分检索2时间复杂度：O(log2N）空间复杂度：O(N)可以按前缀查找不能增量式索引：每次要重新排序汉语词典TRIE树索引AC算法1问题假设词典中有两个词：aba，abcd考虑输入串：bababcdab如何迅速找出输入串中词典词的所有出现？简单解决办法逐字查词典：效率太低AC算法将词典构造成一个自动机，一次扫描完成AC算法2AC算法3AC算法4AC算法5AC算法5AC算法6AC算法7AC算法8AC算法9汉语新词语随着经济、社会的飞速发展和对外交流的日渐频繁，自然语言中新词的不断涌现在汉语这种词与词之间没有明显界限的语言中，新词的识别问题尤为严重。除了命名实体和字母词因为有明显的构成特征而相对比较容易被识别外，其他新词很难识别。汉语新词语分类新词语的种类命名实体：包括人名、地名、音译名、商品名、公司字号、机构名等；缩略语：如“非典”、“计生委”等；方言词：如“靓”、“买单”等；–新造词：如“伊妹儿”、“美眉”等；专业术语：如“非典型肺炎”、“蓝光光盘”等；音译词：如“酷”、“秀”、“克隆”等；外来字母词：如WTO、APEC、SARS等。以上划分方式大多是按语言学的标准进行的，在计算机处理时难以找到明显的规律(命名实体和字母词除外)汉语新词语的出现规律虽然从词语的构成规律上看不出新词的规律，但是从一个整体的角度看，新词具有下述的两个特征：.新词语在文本中重复出现.新词语出现的时间有规律随着Internet的蓬勃发展以及网页采集技术的成熟，已经可以轻易的从网上采集大规模的网页，同时目前概率词法分析器也达到了比较成熟的阶段，因此这两个条件给我们利用新词语的这两个特征做好了准备。基于重复子串的新词语识别从互联网上定点收集大量文本语料对这些文本语料进行词语切分从切分的结果中识别出所有的词典中没有出现的重复串选择某个时间点以后出现的重复串作为候选新词采用人机互助的方法从候选新词中找出真正的新词重复子串识别目标：识别出文本中所有出现两次以上的子串据香港《文汇报》报道，北京的台湾问题专家李家泉受访时指出，台北、高雄两市市长选举，尽管蓝、绿两政治势力进行了激烈的斗争，但“北蓝