中文文本中企业并购信息的自动抽取北师大中文信息处理研究所韩伟峰(weifenghan04@163.com)2009.11.06提纲本文研究意义及任务语料库的建设企业并购典型表达模式分析知识库的建设本文研究的难点一本文的研究意义及任务1.1本文研究意义信息抽取是自然语言处理的一个重要应用领域。本文中所指的“并购”包括:收购、兼并和合并。中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。1.2本文研究的任务本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于HNC理论进行语义分析,建立实现抽取的模式知识库。在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。1.2本文研究的任务抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。抽取的信息也会因为并购类型不同增加比如:合并——合并后的新企业名称收购——收购内容(股权、资产)兼并——产权转移二语料库的建设2.1语料库的收集整理语料的选取与抽取任务结合这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。充分利用语料研究企业并购信息表达语料中总结提取出规则使用的模式是很重要的一步。2.2语料的收集与标注语料的收集整理是本文研究很重要的前期准备。语料来源:中国并购网关于并购的新闻报道。制订语料标注规则原则:程序自动提取信息所需要的知识(因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注)标注范例T北京时间10月27日/T早间消息,据国外媒体报道,Corp北电/Corp周一宣布,已经与Corp日立/Corp达成合作协议,由日立出资Mb1000万美元/Mb购买Corp北电/Corp下一代分组核心网络部件业务。三企业并购的信息模式分析3.1企业并购信息的分析分析方法是以相关句子或者句群的动词为中心。分析内容:动词主语搭配、动词宾语搭配、适用的并购类型等等例如:“转让”主语:主动方宾语:内容(资产、股权、债务)类型:收购3.2企业并购信息的表达模式按照并购的类型分类总结表达模式HNC理论的句类理论为我们提供了很好的理论基础。转移句T0=TA+T0+TB+TC关系句Rm4=RB+R等等……3.3表达模式范例以收购类为例,总结表达模式:TA+Verb+TBTA+Verb+TB+TC收购收购认购认购买进买进拥有拥有…………苏宁电器成功收购Laox公司。苏宁电器成功收购Laox公司27.36%的股权。四知识库的建设核心动词知识库并购结果知识库并购类型知识库排除知识库4.1核心动词知识库核心动词库的建立依据动词自身的特点来进行。构想(以“收购”为例):VerbObject(主语)Type(类型)收购a/p.F.并购a.T.认购a.T.受让p.T.转让p.F.4.2并购结果知识库并购信息中,并购结果是抽取的重要任务之一,表示结果的词语和表达很多,也可以尽可能穷尽。一般位于核心动词的前面,或者后面,或者是另一句子隐含信息。V前:成功、圆满、顺利/没有、中断等V后:了、完、成功、结束/失败、终止、失效等隐含:不欢而散、功亏一篑、皆大欢喜等另外还会有一些固定表达模式。4.3并购类型知识库抽取要区分并购类型:收购、兼并、合并某些核心动词可以明显判断:收购、合并、兼并、吞并、吃掉有些需要V+N来判断收购15%股权收购全部产权更复杂的需要考察上下文推断,这需要更高的理解层次。4.4排除知识库有些信息是与我们的所抽取的任务无关,但是其存在干扰了我们抽取的准确性。比如,时间类:上次、去年、以前、将等否定类:没有、不等意愿类:有意、打算、想、欲等中心名词定语:去年成功收购骑士队的黄建华有意收购吉林东北虎。五研究中的一些难点抽取信息的分离或缺失,需要通过上下文或者语义推理,增加抽取难度。文本信息中的指代消歧问题。句子辅语义块和句蜕、块扩中信息的抽取(细节和隐含信息的抽取)问题。谢谢观看……希望大家多批评指正……