自然语言理解-汉语概念内涵分析分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

汉语概念内涵分析及其应用陆汝占rzlu@sjtu.edu.cn上海交通大学计算机系目录目的检索实例理论基础我们的设想总结与展望语言处理的现状及困惑词法分析:准确率95%(Jiang2004)考虑未登录词的话,大致在90%以上(Liu2004)句法分析:准确率大约90%(Collins2005)汉语句法分析的准确率80%(Meng2003)反映了什么问题?结构规律难以驾驭语言现象。表面看:由词组句结构规则约束太粗?太细?太死板?深层看:语句表达意义广泛,词汇组合手段丰富。整体上,结构与意义不同构。语言开放性,常突破句法规则约束:通常:“很”+形容词:很漂亮,很幸福限制*“很”+名词?:很阳光,很青春,很郊区,很农民,很董建华。趋向重视词汇研究,重视词汇与语义的关系词汇-语法,[法]MauriceGross本体论目录目的检索实例理论基础我们的设想总结与展望检索实例来源:ChinesequeriesforTREC-5ChineseCollection:numNumber:CH4C-title中国大陆新发现的油田中国大陆新发现的油田观点:从整体语义理解的角度看网页是否符合查询需求,太困难,这需要自然语言理解技术实质性的突破。所以退而求其次,考察网页中出现的关键概念之间的关系,是否符合需求生成的概念图。“中国大陆”有两种理解:中国大陆1——地理范围的描述中国大陆2——“借代”修辞格,指中国政府这样就存在两种概念图,如果我们认为“中国大陆”是一个地理范围,那么用户需求生成的概念如下图所示:E:油田发现新中国大陆检索需求生成的概念图结果方式地理范围处置状态分析了前三页共30个检索结果(snippets),返回的结果中有一个基本符合的网页中国发现新油田(04年4月6日)-2004-04-06在位居中国第二大油田的胜利油田发现了一个储量为二亿八千万吨的隐蔽油气藏油田。有关人士指出,新油田的勘探发现会缓解中国对能源短缺的忧虑。中国这些年来经济的持续高速发展致使能源出现严重短缺,石油进口连年递增。2003年进口了九千七百四十万公吨...网页快照-类似网页(无法访问)其他的返回结果,大多不符合检索需求,但是由于能匹配上关键词,在Google非完全基于内容的排序方式下放在了前面。事实上,在第一页的结果中就出现了基本的三种错误:1.油田的地理范围不是中国大陆如:胡锦涛访非和中非能源外交不过,沃尔夫表示,中国以前在安哥拉和苏丹进行的投资都得到了回报,所以预计中国在尼日利亚的投资也会得到回报。只不过尼日利亚新发现的油田大部份是在海上,由于中国缺乏深海作业的技术,因此要想充份利用这些油气资源,中国需要与西方石油公司合作。...网页快照-类似网页2.发现的广义方式不是“新”如:北大招生网大庆油田后来发展到年产5000万吨,而且是稳产、高产30年。1963年,又发现了胜利油田,后来产量达到每年3000万吨,最好的时候...青藏形成过程中,对于整个中国大陆是一个强烈的挤压改造的过程,使地壳明显增厚。到晚白垩——中渐新世的时候,东部太平洋这...=3883-32k-2006年8月19日-网页快照-类似网页3.发现的结果不是油田如:中科院科研成果入选2002年中国十大科技新闻候选条目(中国科学院)中国大陆科学钻探工程的主要科学目的就是研究超高压变质岩的形成机制及地球动力学。11.科学家发现世界最早的有胎盘类哺乳动物攀援始祖兽化石。我国辽宁省凌源县新发现的攀援始祖兽化石,被确认是世界最早的有胎盘类哺乳动物化石。这为真兽类(有胎盘)哺乳...网页快照-类似网页我们的目标就是要在需求概念图和网页中相应的关键概念图的引导下,把不符合需求的网页后移/去除,把符合用户需求的放在前面。希望正确率和召回率同步增长。检索实例“上海哪里能买到火车票?”用户在检索时会建立各种关键词串:上海买火车票“上海火车票”销售上海“买火车票的地点”上海出售火车票例1检索字串:上海买火车票这个网页确实符合用户的需求的。例2如果使用关键词“上海火车票销售”查询,这个网页也是在第一页结果上的。但是,这个网页上的销售火车票的企业实际上是浙江的。关键词“上海”出现在推荐网站中(仅“查询”,而非“销售”)。例3使用的关键词是上海“买火车票的地点”这里的“买火车票的地点”是在孟买,而不是上海。上海是签证的地点。例4检索字串:上海出售火车票这里出售的是“上海火车票”,但是,这是一个二手票的网站,符合用户的需求吗?检索现状现状表达形式:关键词串(非自然话语、非连续词语:碎片)限于关键词串不完全正确反映用户初衷——关键词的选择会影响召回率仅限关键词布尔逻辑运算“与”、“或”、“非”、“邻接”等,不反映、不考虑关键词之间概念联系——概念关系理据(即使关键词完全贴切)解决方法:检索的基本单位是“概念”(能表达意义的)而非字串什么是“概念”呢?语言与概念的关系是什么?概念应该如何分析?目录目的检索实例理论基础我们的设想总结与展望语义三角图(1923年)(行为主义语言理论,奥格登,里查兹)解释:词代表概念,概念代表所指对象。指称关系B--C。概念属心理范畴,A,C属物质范畴交际功能:说:CBA听:A(声)BC发展:指称语义学,模型论(弗雷格1892,克里普克1977,塔斯基1944,丘奇1951,蒙太古1970,巴怀兹、佩里1975,克瑞斯维尔1990)词语指称外延实体。AC(直线)。词语的概念内涵定义。AB。内涵在不同可能世界下指称不同外延实体。(蒙太古语法)触动对应唤起对照B.概念A.词C.所指对象新解释CB,category分类。(Howtosort)将实体按一定的特征分布(组成,功能,形态等)归为一类并赋予一概念。按上下文关系细划子类并赋予一子概念。例“笔”[功能]用于书写、作画的工具。形状:杆状。[组成与材料]杆:竹管,塑料管,金属管,……。书写头:羊毛,圆球,合金,……。耗材(书写液):墨,墨水,油墨,颜料……。铅~,毛~,钢~,圆珠~,……。B.概念A.词语C.实体denotation外延ontology命名内涵categorize分类新解释(cont.)BA,ontology,命名。(Howtonameconcept)为每个概念赋予一个词语(词,短语)CBA,(Howtonameentity)蒋绍愚(1999):二次分类与社会、历史、文化、领域、地域都有关ontology≠specification,没有统一标准。AC,指称外延。词语指称客观实体(集合、个体)。B.概念A.词语C.实体denotation外延ontology命名内涵categorize分类新解释(cont.)AB,词语概念内涵定义。问题:名词指称实体必须经过“概念”?行为主义解释例:“我是太郎。”(讚井唯允《语用上的具体化与一般化》)概念同指:“我”——说话人自称;“太郎”——日本人长子取名之一。批评:“我”=“太郎”=A,“A是A”指称语义:|我|M,W=|太郎|M,W=e(实体)(语言的语义要用元语言来表示)W表示可能世界,即说话场合,角色,时间,空间。M为实体对象域下的模型(语义指派)B.概念A.词语C.实体denotation外延ontology命名内涵categorize分类新解释中的关键A,B,C之间的联系反映了对应关系A,B,C内部的组合合成关系,既反映了词语、概念、实体三者本身内部的构成,而且这三类的组合又要对应。反映在词语上的关键问题:w=w1w2,求解|w|=|w1|o|w2|,其中是词法句法上的复合运算(搭配组词、组短语、组句)。o是语义上的组合运算(限制、修饰、合并、联合),在语义特征上是如何操作的。现实意义:自动解释合成表达式语义,包括词典上未释义项(“我家”,“我国”),新词新语的解释,即使是词典上有解释的义项,也需要自动提取逻辑特征,要按概念分层、分类。创意点:提取词的最大遗传基因(最大公因子),有益于自动处理义项识别与语义生成。希望能有益于现代汉语语法的改进。语言学基础论题:复合词(合成词),构词法结构上困惑:NVN,是复合词、短语、句?V+NVP?NP?例:“节目主持人”“宪法修改草案”“路径寻找算法”“术语过滤策略”推广:标题、标语、广告语(结构、概念、翻译)摆脱结构上的困惑,这类词在概念上做什么解释?复合结构及概念理据复合结构游泳池格语法解释:“池”是“游泳”的场所。写字板“板”是”写字”的场所吗?写字台,写字间我们的解释池游泳功能板写字功能台写字功能[办公]写字间功能借代例:“汉语语法分析问题”(吕叔湘)三种理解:(1)*用语法去分析问题(2)*分析语法上的有关问题(3)语法分析上的问题翻译:*ProblemsinChineseSyntax原义:从分析方法视角论述汉语语法参考译法:OnAnalysisofChineseGrammar/DifficultiesinAnalysisofChineseGrammar/TheAnalysisProblemofChineseGrammarGoogle上搜索的结果“汉语语法分析问题”共2910项,全是指吕叔湘先生的书“语法分析问题”共3150项“汉语语法分析”共6350项,大多作名词短语用“分析问题”共1290000项大多作动词短语用“语法分析”共125000项大多作名词短语用理据:概念分析“问题”:“需要研究讨论并加以解决的矛盾、疑难。”——干什么活干不下去。“语法”:语言结构方式;语言的语法研究。“分析”:找出事物、现象、概念组成的本质属性及其关系。问题:矛盾、疑难;功能(-)影响(-)分析:功能(-)(受阻行为),影响(-)语法:行为对象汉语:例化NVN型复合词联结构造:概念链,栈(先进后出,倒序)路径寻找算法PathFindingAlgorithm算法功能(+)—算什么寻找(功能):操作路径操作对象概念表示实体(名)属性,名值一般情况E1…………EnAtr1,1……Atr1,mValue1,1,1Value1,m,e允许多重概念表示名词模型动词模型形容词模型相关的语言工程概念抽取:语言词典中有关词条的概念内涵定义知识的抽取及概念网表示。例1“红”Def.形容颜色像鲜血一样模板:像……一样扩展型模板:形容……像……一样。实体(喻体):鲜血;属性:名:颜色,值:红A+N:红+N例:红苹果;红葡萄柚图上操作:联结弧:实体,属性:名——值;比喻归约reduction:pullback多语种的复合概念对齐汉语韩语日语英语脂肪分解酶지방분해효소脂肪分解酵素Fatdissolvingenzyme对虾产卵场참새우산란장クルマエビ産卵場prawnspawningplace全球定位系统글로벌포지셔닝시스템全世界位置測定システムGlobalpositioningsystem光电倍增管광전증배관光電倍増管Photomultipliertube煤炭供应政策석탄공급정책石炭供給政策Coalsupplypolicy对齐的依据是没有“四态”变化(时态tense、模态modal、体态aspect、语态voice)目录目的检索实例理论基础我们的设想总结与展望概念分析与智能检索检

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功