Web信息检索与分析Chapter1:CourseOverview1课程的主要内容2第一部分:数据挖掘基础概述关联规则和序列模式监督学习无监督学习数据的预处理课程的主要内容3第二部分:Web挖掘信息检索与Web搜索从非结构化的文档集中找出与用户需求相关的信息将IR技术应用于WorldWideWeb上的HTML网页链接分析Socialnetwork,co-citation,etc.Web爬取Crawlersandimplementationissues结构化数据抽取Usingmachinelearningtogenerateextractionrules信息集成课程的主要内容4第三部分:主要应用介绍观点挖掘Web内容挖掘Web使用挖掘图像与多媒体挖掘课程学习目标5理解并掌握数据挖掘的基本概念和方法获得搜索引擎构建和实现的相关方法,并深入了解现代信息检索的基本思想和算法掌握Web数据挖掘和搜索的相关技术和方法,并对其在现实中的应用获得深层次的理解第一章概述6什么是网络数据的特点Web数据挖掘什么是数据挖掘什么是Web数据挖掘我们所使用的万维网TheWebWebResults1-10ofabout7,310,000formiele.(0.12seconds)Miele,Inc--AnythingelseisacompromiseAttheheartofyourhome,AppliancesbyMiele....USA.tomiele.com.ResidentialAppliances.VacuumCleaners.Dishwashers.CookingAppliances.SteamOven.CoffeeSystem...äten,Hausgeräten...-[Translatethispage]DasPortalzumThemaEssen&GeniessenonlineunterÖsterreich-[Translatethispage]HerzlichwillkommenbeiMieleÖsterreichWennSienichtautomatischweitergeleitetwerden,klickenSiebittehier!HAUSHALTSGERÄTE...(650)756-3931SameDayCertifiedInstallation!!Allmodels.Helpfuladvice.1989年,TimBerners-Lee在日内瓦欧洲离子物理研究所(CERN)开发计算机远程控制时首次提出了Web概念,并在1990年圣诞节前推出了第一个浏览器。Inspiredby:TedNelson在1965年提出了超文本的概念.超文本传输协议(HTTP,HyperTextTransferProtocol)是互联网上应用最为广泛的一种网络传输协议CombineInternetandHypertext接下来的几年中,他设计出HTTP、URL和HTML的规范,使网络能够为普通大众所应用8Internet的增长–websitegrowth9Internet的增长(2)10SearchingtheWebContentaggregatorsTheWebContentconsumers11WebSearch历史1993,早期的webrobots(spiders)用于收集URL:Wanderer:Perl-basedwebcrawlerALIWEB(Archie-LikeIndexoftheWEB)(indexedURL’sandtitlesforregexsearch)1994,Stanford博士生DavidFiloandJerryYang开发手工划分主题层次的雅虎网站.12WebSearch历史(cont)1994年初,WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字Lycos(CarnegieMellonUniversityCenterforMachineTranslationAnnouncesLycos)是搜索引擎史上又一个重要的进步。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量DEC的AltaVista是一个迟到者,1995年12月才登场亮相.AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)13WebSearch近期历史1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日Google在Pagerank、动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义主要的进步在于应用链接分析根据权威性对部分结果排序14WebSearch近期历史北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎)2001年10月22日正式发布Baidu搜索引擎。Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库15全球数字化进程加快161998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。1999年,北京市市长刘淇提出数字北京概念。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。问题!17人们可以获得的信息的来源非常广泛VS.如何快速、准确、全面地获得自己所需要的信息?非常困难!信息的特点:信息量太大,而且信息冗余度大、质量良莠不齐、格式不一位置分散、关联复杂、语言繁多、真假难辨信息的理解非常困难—自然语言文本、图片、视频用户的特点:人的背景不尽相同需求的表达困难,对表达的理解也很困难18网络数据挖掘是一门旨在解决上述问题的学科Web数据挖掘系统用户需求相关结果第一章概述19什么是网络数据的特点Web数据挖掘什么是数据挖掘什么是Web数据挖掘网络数据的特征201.数据量大,并且仍然在不断增长主题内容2.存在各种类型的数据结构化表格半结构化的网页无结构化的文本多媒体文件结构化表格21事务ID事务的项目集T1A,B,ET2B,DT3B,CT4A,B,DT5A,CT6B,CT7A,CT8A,B,C,ET9A,B,C半结构化的网页22无结构化的文本23基于内容的图像查询基于内容的图像查询:目标,颜色,纹理图像数据库/互联网用户的提问查询搜索引擎24基于文本的图像查询25人脸识别263.异构的信息27内容相同,形式不同4.绝大部分信息是相连接的28网站内部和网站之间的网页通过超链接联系网站内部:信息组织方式网站之间隐含传递多种信息HubAuthority5.噪音的存在29网页包含多个模块,对于特定任务只有一部分信息有用主要内容导航链接广告版权声明本身没有信息质量的控制SpamemailsSpamwebpagesSpamblogsSpamreviews6.提供服务307.动态性31网络信息不断变化股票外汇牌价商品价格产品评论个人信息博客、微博8.虚拟社会32不仅是数据信息和服务,而且包含人、组织和系统之间的交互QQMSNspaceFlickrDelicious第一章概述33什么是网络数据的特点Web数据挖掘什么是数据挖掘什么是Web数据挖掘Web挖掘的基础–数据挖掘34数据挖掘(DataMining)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现(KnowledgeDiscoveryinDatabases)是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。KDD的出现基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。由KluwersPublishers出版,1997年创刊的《KnowledgeDiscoveryandDataMining》是该领域中的第一本学术刊物。35数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物36数据挖掘的应用电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健37GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店38汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%银行39KDD过程知识目标数据已预处理数据变换后数据模式数据筛选预处理变换数据挖掘解释/评价40KDD过程1.数据准备:了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。2.数据选取:数据选取的目的是确