基于言据性的文本内容可信性研究苏祺1,2,黄居仁11香港理工大学;2北京大学第十一届汉语词汇语义学研讨会2引言(1/2)研究任务——文本内容的可信性/可靠性自然语言处理相关任务信息抽取自动问答自动文摘如何获取信息当所获取的信息不一致时….利用信息的冗余性选择答案QA系统——3引言(2/2)基于冗余性这一启发式判别方法的问题——(赵丽等,2009)在研究博客网络(Weblog)中的话题传播规律时曾提出:在网络上“……无根据的话题甚至谣言更容易产生蔓延。”某些应用的信息冗余性并不显著,因此无法充分利用到这一信息。如何更好地判断文本内容的可信性成为有待探索的问题4非文本特征——如用户的authority一个实际应用的例子CQA(CommunityQA,CollaborativeQA)Q:北大的校训是什么?A1:蔡元培先生曾以“思想自由、兼容并包”八个字作为北大校训A2:不太清楚A3:上党课的时候,老教授告诉我们北大的校训好像是爱国、进步、民主、科学A4:什么情况?……貌似北大争来争去一直没有校训一说……本文拟从文本中一类特殊的词汇语义特征——即文本中的“言据性”(evidentiality)特征入手,探索如何判断文本内容的可信性。Weerkamp&Rijke(2008):通过文本可信性判断改进Weblog的检索效果,并在TRECBlog06数据集上进行了验证5什么言据性?语言学家普遍认为,“言据性”(evidentiality)是认知领域中广泛存在的语言现象。这一语言现象早在20世纪初就受到语言学家的关注。1911,FranzBoas:某些语言形式可用于表示某句话的信息来源或肯定程度。语言中的言据性成分就是对所述命题信息的来源、以及说话人对所述命题信息认知状态的编码(牛保义,2005)实据性6言据性标记的语言运用Chafe(1986)提出,言据性在语言中的表达形式——言据性标记/据素(evidential),表征了说话人对知识可靠性的评判。a).It’sprobablyraining.b).Itmustberaining.c).Itsoundslikeit’sraining.d).It’ssortofraining.e).Actually,it’sraining.f).Ithink/guess/supposeit’sraining.g).Icanhear/see/feel/smellitraining.这些言据性标记自身的词汇语义信息对于预测文本中所涉及的信息是否可靠具有指示性的作用。然而在自然语言处理应用中,传统的文本表示模型往往忽略了这些有用的言据性标记特征.7言据性标记的分类Oswalt(1986)PerformativeFactualVisualAuditoryInferentialQuotativeBarners(1984)VisualNon-visualApparentSecond-handAssumed关注言据标标记的窄义分类——信息是如何获取的8本文采用的言据性标记分类参考Rubin等人(2006)的言据性标记分类AbsoluteHighModerateLowAttributive/modaladverbcertainly,sure,ofcourse,definitely,Absolutelyclearly,usually,obviouslysometimes,seemingly,probably,likely,maybe,Personally,perhaps,possiblyLexicalverbreportbelieveseem,Ithinkdoubt,wish,wonderAuxiliaryverbmustoughtmay,mightEpistemicadjectivepossiblenotsure认知副词、词汇动词(实义动词)、助动词以及认知形容词9实验设置Emory大学,Yahoo!Answers英文CQA语料Bestanswer/Non-bestanswer最佳答案(best)非最佳答案(non-best)文本集合总数训练集21,65621,65643,312正常分布的测试集194,9071,588,8991,783,806平衡测试集194,907194,907389,81410实验结果采用正常分布数据集的实验结果PrecisionRecallAccuracyF1Baseline17.74%41.21%72.70%24.81%Evidential14.07%57.88%56.76%22.63%PrecisionRecallAccuracyF1Baseline72.37%41.21%62.73%52.51%Evidential62.96%57.88%61.92%60.32%采用平衡数据集的实验结果11实验语料分析通过观察实验语料,发现在答案文本中确实存在许多言据性标记,能够直接帮助我们判断该答案是否应为最佳答案。例如:-Idoubtitistruebutit’saneatthingtothinkabout……-imnotsureIwasalwaystoldnevertolookdirectlyatthesuncositsbadforureyes.为了使其他人相信自己的答案,有时答案提供者也用通过运用really、certainly等确定性的言据性标记来引导信息的阅读者、增强信息的说服力。Nomostcertainlyitcannot....Trustme;)12结语探讨了文本中的言据性标记在文本信息可靠性判断任务中的作用。言据性作为语言表达中的一种普遍现象,是话语者对所述命题的认知状态的编码(Chafeetal,1986;牛保义,2005),体现了话语者对其所提供信息可靠性的自我判断。实验结果表明,与传统的BOW模型相比较,仅利用文本中的言据性标记就能够达到比传统方法更优的F1分类指标。同时也大大降低了所用特征向量的维度,减少了计算的复杂性。谢谢!sukia@pku.edu.cn