基于领域知识库的信息推荐系统智能文本篇章分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于领域知识库的文本信息推荐系统演讲者:谷林指导老师:林荣德--智能文本篇章分析概述系统框架用户兴趣模型智能文本篇章分析和信息推荐系统测试结果总结与展望一二三四五六概述一网络高度发达的今天,网络信息的量也正以几何级数的方式增长。有些时候,您是否发现对信息的选择有些困难呢?概述一该如何选择我感兴趣的信息呢?概述一这个时候信息推荐系统来了!信息推荐系统InformationRecommedationSystem概述一推荐系统是一种为解决Internet上成千上万的信息过载而设计的智能的代理系统。它能从Internet上大量的信息中向特定用户自动推荐符合其个人兴趣偏好或需求的信息,从而实现个性化的推荐服务。信息推荐系统概述一基于领域知识库的文本信息推荐就是根据知识点之间的相关性和用户的兴趣来推荐用户感兴趣的文章信息。项目简介推荐信息分类:个人热点推荐公共热点推荐概述一本项目需要解决的三个问题I.建立用户兴趣模型并进行动态更新;II.抓取网页文本,并对文本篇章进行智能分析;III.依据用户个人的兴趣知识库产生推荐文本信息。系统框架二数据库后台分析程序Web推荐系统读取用户个人信息以及推荐信息反馈用户的浏览记录读取所有用户的浏览记录和每个用户的所有关键词存储推荐信息以及动态更新的用户兴趣返回搜索结果搜索用户关键词访问推荐的网页Internet2.1信息推荐系统的框架图系统框架二2.2后台分析程序数据处理流程后台分析程序处理过程分为两个功能模块:从用户浏览记录中挖掘用户兴趣搜索用户关键词产生推荐信息用户兴趣模型三兴趣模型的定义:用户兴趣模型是将用户感兴趣的事物抽象出其概念,并且用特定的表达形式表示出用户兴趣的一种方案。用户兴趣模型三3.1用户兴趣模型的表示方法向量空间模型是将用户兴趣模型表示成一个n维特征向量,每一维向量表示如下:主概念子概念相似或包含关系值fatherchildp用户兴趣模型三3.2用户行为的数据收集用户行为的数据收集是一个获取与用户特征、偏好或活动相关的信息的过程。一般有两种方式:显性隐性体育读书游戏娱乐汽车智能文本篇章分析和信息推荐四4.1领域知识库智能文本篇章分析和信息推荐四4.1.1公共知识库实例以体育领域为例,树形结构图:智能文本篇章分析和信息推荐四4.1.2个人知识库实例个人知识库看作公共知识库树的一棵子树,简单的用户知识库实例如图:NBA专题体育网球足球国际足球英超梅西个人知识库树形结构图:智能文本篇章分析和信息推荐四4.5计算子概念对某关键词贡献度主概念子概念贡献度wID2(主概念)wID1(子概念)P(关联值)uID(用户编号)体育足球0.70921121010足球国际足球0.50921121010以体育领域为例,树形结构图:体育125610113748129131415假想兴趣树遍历访问的顺序为:123451514131211109876NBA专题体育网球足球国际足球英超梅西NBA专题对体育的贡献度为:0.8*0.5=0.4梅西对国际足球的贡献度为:0.5*0.5*0.6=0.15智能文本篇章分析和信息推荐四自动搜索关键词提取有效网页地址提取网页中的文章文章评分智能文本篇章分析和信息推荐四4.6文章评分和信息推荐按如下公式对文章进行评分:文章最终得分=智能文本篇章分析和信息推荐四4.7推荐信息的动态更新推荐的信息超过3天后,默认为此文章已经失去时效性,故予以删除,从而达到减少数据冗余。智能文本篇章分析和信息推荐四4.8用户个人知识点兴趣度变化的勒夏特列原理“知识点兴趣度的时间修正:快开始,慢减少”的思想,效果如图:00.20.40.60.811.2123456789101112131415161718192021222324252627282930兴趣度时间“梅西”兴趣度随时间变化曲线“NBA”兴趣度随时间变化曲线系统测试结果五5.1.1百度搜索“体育”的结果本次仅以关键词“体育”为例,来测试后台分析程序的运行结果。系统测试结果五5.1.2搜索结果的网页源代码本次仅列举第一条信息的网页源代码,如下图:系统测试结果五5.1.3分析提取有意义网页地址的结果共20个提取结果:://sports.people.com.cn/n/2013/0523/c143318-21581486.html://zqb.cyol.com/html/2013-05/23/nw.D110000zgqnb_20130523_1-07.htm://://sports.dz://news.xinhuanet.com/sports/2013-05/23/c_4751280.htm://news.hexun.com/2013-05-23/154414852.html://://://sports.sina.com.cn/j/2013-05-23/08576583560.shtml://sports.qq.com/a/20130523/004628.htm://sports.sina.com.cn/c/2013-05-23/07176583365.shtml://news.enorth.com.cn/system/2013/05/23/010986857.shtml测试网页地址目标网址:文章标题:马拉加下次欧战仍遭禁赛状告欧足联至体育法庭_网易体育文章长度:520网易体育5月23日报道:欧足联的一纸通告,让马拉加球迷尝到了坐过山车般的心情。欧足联的官方通告中用词并不明确,马拉加俱乐部一度以为两年禁赛都被取消。但据《马卡报》透露,马拉加只是第二年的欧战禁赛被取消,欧足联仍维持取消其下次欧战资格的处罚。《马卡报》:马拉加下次欧战仍将被禁赛去年12月21日,欧足联宣布处罚9家违反了财政公平原则的俱乐部,其中就包括马拉加。欧足联处罚马拉加将无缘下次欧战,如果马拉加在3月31日之前不能证明他们达到了财政公平政策要求的话,那么还会再被禁赛一个赛季。马拉加认为遭到了欧足联的迫害,在欧冠争议出局之后,马拉加甚至抱怨欧足联有意要打压他们。昨天欧足联在官方网站上宣布,取消了这几家俱乐部的欧战禁赛令,当时西班牙媒体一片欢腾。但很快马拉加就被兜头泼下一盆冷水,欧足联更改了通告,并确认只是取消了对马拉加的第二个赛季的追加处罚。在马拉加下次获得欧战资格时,该队仍然会被禁止参赛。对于欧足联的决定,马拉加非常不满。据《马卡报》透露,马拉加已经把欧足联告上了体育仲裁法庭,体育仲裁法庭将在6月4日公开审理此案,以便确定马拉加下次是否有资格踢欧战。本文来源:网易体育作者:张琳网易/体育/5月/23日/报道/欧/足联/一纸/通告/马拉加/球迷/尝到了/过山车/般的/心情/足联/官方/通告/中用/并不/明确/马拉加/俱乐部/一度/以为/两年/禁赛/都被/取消/马卡报/透露/马拉加/只是/第二年/欧战/禁赛/取消/足联/维持/取消/其下/欧战/资格/处罚//马卡报/马拉加/下次/欧战/将被/禁赛/去年/12月/21日/足联/宣布/处罚/违反/财政/公平/原则/俱乐部/其中/包括/马拉加/足联/处罚/马拉加/无缘/下次/欧战/如果/马拉加/3月/31日/之前/不能/证明/他们/达到/财政/公平/政策/要求/的话/那么/还会/被禁/赛一个/赛季/马拉加/认为/遭到/足联/迫害/争议/出局/之后/马拉加/甚至/抱怨/足联/有意/打压/他们/昨天/足联/官方网站/宣布/取消/这几/家俱/乐部的/欧战/禁赛/当时/西班牙/媒体/一片/欢腾/很快/马拉加/泼下/一盆/冷水/足联/更改/通告/确认/只是/取消/马拉加/第二个/赛季/追加/处罚/马拉加/下次/获得/欧战/资格/该队/仍然会/被禁/参赛/对于/足联/决定/马拉加/非常/不满/马卡报/透露/马拉加/已经/足联/上了/体育/仲裁法/体育/仲裁法/将在/6月/4日/公开审理/此案/以便/确定/马拉加/下次/是否/资格/欧战/本文/来源/网易/体育/作者/张琳/系统测试结果五5.1.6文章最终评分结果以及产生的推荐信息用户敏感词在文中出现次数统计如下:Word:马拉加Times:15文章得分:1050000产生新的推荐信息如下:用户编号:0921121010文章标题:马拉加下次欧战仍遭禁赛状告欧足联至体育法庭_网易体育网页地址:处理标识符:0文章得分:1050000系统测试结果五5.2用户兴趣的挖掘和个人知识库的动态生成系统测试结果五5.2.1读取用户浏览记录点击信息表中的一条记录如下clickIDuIDurlflagClicktime80921121001:48:29目标网址:文章标题:孔蒂:未延长合约也未涨薪望尤文下赛季蝉联冠军_网易体育文章长度:704本特纳下半场替补出场仅13分钟,就在一次头球的争抢中摔伤了手臂;由于队医怀疑本特纳摔掉了手腕,目前球员本人已经被送往医院拍摄X光片。孔蒂祝福本特纳早日康复,“真为本特纳感到遗憾,因为他一直不太走运;他刚刚伤愈复出,结果又弄伤了自己,他是个很好的小伙子,是名出色的足球运动员,我希望他能一切顺利。”由于在引援问题上和俱乐部主席阿涅利产生分歧,孔蒂一度流露出将告别斑马军团的意思;好在经过本周中长达3小时的会谈后,阿涅利和孔蒂握手言和。谈到这件事时,孔蒂表示:“我决定留在尤文。如何被说服留下?谈不上谁说服了谁,我和尤文还有2年的合同,直到2015年,留在这里是为了我们共同的计划。另外我要说的是,合同并没有被延长,也没有任何修改,我看到报纸上提到新合同的年薪(《米兰体育报》称,尤文将提供给孔蒂一份税后年薪为500万欧元的新合同),那都是毫无根据幻想出来的,钱对我来说并不重要。”孔蒂表示下赛季尤文有更宏大的目标去争取实现,“我们是冠军,承受的压力自然更大;下赛季的联赛将会非常艰难,因为我们的目标是联赛三个赛季蝉联联赛冠军,我们要创造更多的纪录。国米此前赢得了三冠王,但之后他

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功