文本挖掘技术15-工具

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1文本挖掘工具与应用杨建武Email:yangjianwu@icst.pku.edu.cn第十五章:北京大学计算机科学技术研究所文本挖掘技术(2009)2GartnerviewofUnstructuredDataManagement3TextMiningbyTask¾Informationretrieval¾Textcategorization¾Documentclustering¾Informationfiltering/topicdetection¾Textsummarization¾Questionandanswer¾Taxonomy/concept/relationshipmining¾Visualizationanduserinterface4TextMiningbyIndustry¾Biotechnology¾Consumerproducts¾CRM,Consulting,Marketing¾Education¾Government¾Healthcare¾Insurance¾OtherIndustry5传统商业方面的应用6DiscoveringUnexpectedInformationFromACompetitor¾Assumeyourbossaskyoutofindoutwhatnewinformationyourcompetitorprovides™E.g.,tolearnfromthecompetitor™E.g.,todesigncountermeasures(对策)¾Textminingtechniquesthatmaybeuseful™noveltydetection,textclassification,informationextraction¾Majorproblems:™Howtomodelwhatyoualreadyknow?»Incorporatinguser’sexistingknowledge™Whatunexpectedinformationaboutcompetitorstofind?™Algorithms™Systemarchitecture7FindUnexpectedInformationAboutCompetitors¾Whatisunexpectedinformation?™Isrelevanttotheuser™Isunknowntotheuser,orcontradictstheuser’sexistingbeliefsorexpectations¾•Examples™Unexpectedservicesprovidedbycompetitors™Unexpectedproductsprovidedbycompetitors¾Howtomeasureunexpectedness(novelty)?™Betweentwowebsites™Betweentwopages8应用:企业竞争情报¾为企业收集和分析数据,以识别出现的威胁或问题。¾跟踪新闻稿、专利公布和合并与收购活动可以帮助确认由于竞争对手、供应商、顾客或合作伙伴的策略变化而导致的潜在威胁。¾监控和分析新闻组和邮件列表中顾客张贴的内容和对呼叫中心的投诉可以帮助发现市场动态和品牌观念的趋势。9应用:CRM10应用:CRM11应用:电子商务网站¾电子商务最需要™第一是吸引新的用户,增加已有用户的忠实度,™第二是减少系统运行的开销和成本。¾最有效的方法™记忆及分析用户的浏览兴趣和习惯,为用户提供真正个性化的网上资讯服务。¾文本挖掘可为电子商务网站提供三个独特功能:™「内容相关推荐」自动监察用户的浏览习惯及内容并随时推送相关资讯及网站;™「协同推荐」自动记忆及分析用户的浏览习惯,让用户可随时进入浏览所推介的内容;™「精确搜寻」会应用户指定的要求,在网上世界搜寻最精确的资料。12应用:BBC公司¾BBC,英国广播公司每天从世界各地涌进130万份各种格式的新闻消息,每天要对这些信息进行处理,储存,分析,做新闻连接,还有网页新闻发布,要同时支持上百万用户的使用。¾以前BBC用人力的处理方法,每天需要上百人来阅读,分析,人工贴标签,人工网页连接。耗资巨大,随着信息量的增加越来越不可行。¾文本挖掘技术使整个过程全部自动化。现在BBC的网页上可以提供20种自然语言的信息检索,即时的信息连接,用户的信息个人化。¾系统运行的成本却比以前减少了数倍,现在每天只用几个人来管理整个系统就够了。13应用:theHealthIndustry¾PatientswithcharacteristicsXandsymptomsYshouldgettestZ¾Someinformationiseasytoextractfrommedicalforms™E.g.,patientcharacteristicssuchasgender™E.g.,diagnostictestsassigned¾Someinformationmustbeextractedfromthetext™E.g.,symptomssuchasheadache¾Techniquesused:™Textclassification™Informationextraction(template-filling)14搜索引擎方面的应用15应用:SearchEngines16VivisimoSearchEngine:()1718News.google.com1920FindingTopic-SpecificExperts21TextMiningTools22IBMDB2IntelligentMiner23IBMDB2IntelligentMiner¾IBMDB2IntelligentMiner:™IntelligentMinerforData•可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息。™IBMIntelligentMinerforText•允许企业从文本信息中获取有价值的客户信息。¾1998年IntelligentMinerforTextV2.224DB2DataWarehouseEditions¾March14,2006,IBMannouncedwithdrawalfrommarketingandendofsupportfortheIntelligentMinertools.¾DB2DataWarehouseEditionsisthereplacementproduct.25DB2DataWarehouseEditions26IBMIntelligentMinerforText¾扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。¾文本数据源可以是Web页面、在线服务、传真、电子邮件、LotusNotes数据库、协定和专利库。¾数据源可以包括客户反馈、在线新闻服务、电子邮件和Web页面。¾功能包括:™识别文档语言,建立姓名、用语或其它词汇的词典™提取文本的涵义,将类似的文档分组,并根据内容将文档归类。™文本搜索引擎和Web文本搜索功能27单词角色及其关系的解析树28元数据提取与自动分类29自动聚类30多种检索31SASTextMiner32SAS®TextMiner¾SASTextMinerprovidesarichsuiteoftoolsfordiscoveringandextractingintelligencefromlargedocumentcollections.¾Ithelpsidentifytrendsandbusinessopportunitiesandgeneratesmeaningfulinsightstokeybusinessissuesmoreefficientlyandwithlessrisk.33SAS®TextMiner¾SASTextMinerprovidesarichsuiteoftextprocessingandanalysistools™Textdocumentscanbeclusteredautomaticallyintogroups™Textdocumentscanbeclassifiedintopredefinedcategories™Conjunctionwithstructureddatatobuildpredictivemodels¾Textminingcanbedescribedasathree-stepprocess:™accessingtheunstructuredtext,™parsingthetextandturningitintoactionabledata,™andanalyzingthenewlycreateddata.¾Foreachstep,SASTextMinerprovidesstate-of-the-arttoolsthatenableorganizationstoefficientlyextractintelligencefromlargetextcollections.34SAS®TextMiner35SPSSTextMining36SPSSTextMining¾PredictiveTextAnalytics™¾Morethan1000companiesuseSPSSTextMiningsoftware,includingmostofthetop500FortuneCompanies37ClassificationandCategorization38AutonomyIDOLServer39Autonomy¾AutonomySystemsPlc总部设于英国剑桥和美国旧金山,拥有遍布世界各地的分公司。¾Autonomy提供全面完整的智能软件结构,自动化地处理,操作和应用不规整的信息。¾不规整的信息指的是我们周围越来越多的人们所熟悉的信息,比如电子邮件,因特网网页,电子报表,Word文件,pdf文件,语音文件等等。40ProprietaryPatternMatchingTechnology•BasedonresearchfromCambridgeUniversity•Algorithmtoextract“concepts”fromtextandlearn•Languageindependent•Significantintellectualpropertycontent•DataAgnostic!+=TheSolution41StatisticsGenerationfromTheCorpusUsingUsingBayesianInferenceBayesianInferenceandandShannonShannon’’sInformationsInformationTheoryTheory,Autonomybuilds,Autonomybuilds““BagsBags””ofstatisticsfromaofstatisticsfromacorpusofdocumentscorpusofdocuments42IDOLServerIdentifiesKeyConcepts43IDOLServerIdentifiesKeyConcepts拉布拉多猎狗44IDOLServerIdentifiesKeyConcepts45AndStoresStatisticsonDocument拉布拉多猎狗46IDOLServerOperationsContentCategoriesContentPeopleProfilesAgents47AutonomyProductOverviewInterfacesConnectorsLCMIntelligentDataOperatingLayerAdministrationSecurityVoice&VideoUnstructuredXML&StructuredAudioVideoPeopleVideo&AudioCallCe

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功