基于内容理解的智能化引擎上海商众高校数字化校园研究•搜索引擎的发展•基于内容理解的智能化引擎技术功能•基于内容理解的智能化引擎性能特点•基于内容理解的智能化引擎产品•相关案例第一代是早期的以人工录入为代表的搜索,其代表就是雅虎,当时造就了一次网络神话。第二代搜索引擎随着互联网不断的开展,人们需要查找网站当中的任何一个部分,所以大规模的网页搜索就诞生了,这是第二代。Google发明了一种尽可能把客户需要的东西放在前面的技术,第二代搜索引擎的王者。第三代的搜索引擎是智能化的搜索引擎,这是未来搜索引擎的方向。而中国搜索是智能化的先行者,其新推出的智能导航功能,可以提供个性化的服务。例:搜索明星胡军的时候,搜索结果里会出来各种各样的胡军,其实其他叫胡军的人很多,包括著名的管理学家胡军,这个智能导航功能提供了社会科学、文学等几种类型选择,如果你选择社会科学,那么出来的就是博士生导师胡军。搜索引擎的发展结构化信息与非结构化信息结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理。我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:博客,营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(RichMediaContent):如声音、影片、图形等。如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。对于企业来说,企业内部,以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源,已越来越重要。基于语义的计算技术近年来非结构化信息被广为使用,这种信息包括文档、电子邮件、电话交谈以及多媒体内容。目前有超过80%的信息属于这一种类。过去,计算机很难理解这种“自然语言”的信息。而基于语义计算技术则解决了该问题。Autonomy正是基于语义计算技术(MBC)这一快速发展领域公认的领导者。基于语义计算技术使计算机能够理解多种信息片段之间存在的关联,进而通过复杂精密,自动实时的分析来带来真正的业务价值。基于语义计算技术与包括关键词搜索在内的传统方法有何不同?基于语义的计算技术大大超越了传统的方法。像关键词搜索这样的方法只能允许用户查找并提取匹配数据。关键词搜索引擎不能理解信息的含义,因此,它们只能找出包含某个特定词语的文档。这样的话,一篇相关度较高的文档,论述了相同的概念,却由于未出现该关键词而不能被反馈;相反,包含了关键词却与用户期望差距很大的文档却被大量反馈。用户不得不更改自己的查询方式,来适应搜索引擎。基于内容理解的智能化搜索引擎谁选用了基于内容理解的计算技术?目前有超过17,000家的优秀企业和政府机构使用着Autonomy产品中的基于语义的模式匹配算法来提取非结构化信息中的语义。例如,福特汽车公司使用基于语义分析计算技术将其资料库中的文字、音频以及视频文件转化为可利用的参考资料,方便其超过15万的员工更快的了解新上马的项目。为客户搭建一个自动化处理非结构化信息的基础架构,从而为其带来很有吸引力的业务价值。IDOL能够对企业中的信息,包括结构化以及非结构化信息进行自动的分析和整理,在帮助用户理解它们的同时,更提供了智能信息处理层。从根本上说,通过从概念和语义上理解任何格式任何存储位置的数据(包括文本、语音以及视频)并实现针对这些数据的自动化处理。•搜索引擎的发展•基于内容理解的智能化引擎技术功能•基于内容理解的智能化引擎性能特点•基于内容理解的智能化引擎产品•相关案例信息趋势的挑战以前数据库因特网现在不规整的信息电子邮件/网页/Word半结构化的信息文档管理系统/XML•当今,80%的企业运作都是建立在不规整的信息上的GartnerGroup•百分之85的数据都是以不规整的形式存储的ButlerGroup•不规整的信息量每3个月增加一倍GartnerGroup•因特网上每天增加7百万张新网页GartnerGroup•全世界有3.4亿因特网的用户AndersenConsulting信息爆炸信息的多源化需要多角度地分析大量的关联性通过表格提交获得的用户个性化信息‘整理并提供个性化服务内容整合、手工标记、手工聚类手工创建相似链接搜索信息电子邮件形式为想关用户传递文件手工化多种格式转化,如:PDFtoXML人工回复用户提交的问题手工操作Notes新闻电子邮件互联网数据库文件文件管理XMLInformationTheoryandBayesianInferenceIntegrationThroughUnderstanding视频/音频信息采集整合自动分类自动相关链接个性化信息推送个人智能代理社区协作自动传递自动检索路由自动信息提示自动操作通过理解而集成=独特的核心技术•Automatic自动•DataAgnostic对信息的全面掌握•LanguageIndependent超脱语言语种限制•Fast迅速•Scalable可扩展•Accurate准确•Dynamic&Realtime实时•IncludesVoice&Video视频声频•FullyXMLcompatibleXML结构+andincludesLegacyMethods两种尖端数学理论的结合–独有的模式识别技术贝叶斯概率论根据概念之间相互联系而建立意义模型的数学方法香农信息论为提取文档中最有意义的概念提供一种机制对多种数据源的内容信息Autonomy智能化概念算法自动将相关主题的文档聚合到一起政治社会经济文化经济内容相关:股票内容相关:证券自动识别子聚类热点政治社会经济银行房地产化工收入艺术民生行业证券能源股票通信文化理想的系统构架-智能信息操作层Autonomy的技术打破了信息源之间的屏障,让信息在企业中自由地流动。系统架构动态推理引擎分类服务器用户服务器半规整信息(XML)不规整信息规整信息(ODBC)语音图像OA新闻电子邮件文件系统互联网数据库文档业务系统XML声音影像分布式架构分布式架构数据源层连接器层智能数据操作层IDOL应用系统层CRMERPEIPE-BusinessPortalCMS•2D/3D的聚类•自动查询指引•声纹签名功能•主动匹配•代理查询•个性化信息提醒•自动语言侦测•布尔运算操作•热点新闻聚类•分类查询•协作查询•社区•标识概念•概念-查询摘要•概念性检索•上下文摘要•跨模式建议•多维动态分类生成•动态XML解析•结构化信息抽取•参数修正•短语侦测•固有名称辨认•按示例查询•实时聚合•邮件投送•场景侦测•代码对齐•Soundex匹配•演讲人识别•演讲人辨别•谱式分析•语音识别•拼写校对•标记调节•转录•视频分析•语音打印•单词测定•工作组•XML标记...•准确短语匹配•专家查找•显式档案建立•外貌识别•现场调制•框架分析•模糊匹配•热点聚类•超链接•图像分析•图像关联•隐式档案建立•关键字查询•邮件对象识别•旋律分类•旋律辨别•元数据识别•自然语言检索•对象识别•对象鉴别•模糊本体生成►•功能特色•搜索-发现•自动关联,自动分类•聚类与信息提炼•个性化服务•其他搜索-发现$$$学习识别检索结果信息资源信息资源信息资源智能检索功能实现了对各类信息内容的自动概括、聚类、关联和联想,具备了信息检索知识化特征,从而达到了从“搜索”到“发现”的飞跃。外网抓取数据内部企业数据外网抓取数据内部企业数据搜索-发现检索结果自动聚类分组自动上下文摘要多数据源选择关键词或者自然语言检索结果训练搜索搜索导航内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索导航化肥内部企业数据外网抓取数据内部报告搜索统计/搜索聚类智能检索-联合检索•功能特色•搜索-发现•自动关联,自动分类•聚类与信息提炼•个性化服务•其他自动相关链接原始文档,如网页文件,报告,表格等;自动按照内容相关度排序的其他文档;可以选择按照不同的类别链接,如按照部门,分类等;自动相关链接内容与人,组织关联自动分类样本内容$$$分类机器人分类机器人学习文字内容分类信息资源信息资源信息资源基于知识学习的信息智能分类功能,实现了不同渠道获取的海量信息的系统化、有序化,大大提高了信息分类的准确性、一致性和时效性。人员定制分类树,分类机器人自动对信息分类!►自动分类流程1新建分类2分类初始训练3分类文档训练4分类概念调节5前台用户分类查看•Autonomy功能特色•搜索-发现•自动关联,自动分类•聚类与信息提炼•个性化服务•其他自动聚类信息内容信息内容信息内容聚类机器人采取完全自动化(也可以人工干预)的智能聚类算法,自动理解内容,自动分析,提取主题,并以各种形式展示。自动聚类信息岛图信息内容信息内容信息内容每个“小岛”代表一个信息主题聚类机器人在某个时刻将采集内容自动分析,提取主题,并以信息地图展示。连着的“小岛”表示主题关联度高颜色越亮表示相关的内容越多,主题相关性越大点每个“小岛”右边展示相关的内容自动聚类信息岛图2007-122007-12-122007-122007-12-122007-12-122007-12-122007-12-122007-12-12自动聚类信息趋势图信息内容信息内容信息内容每根“亮线”代表一个主题趋势机器人按照时间顺序,将每个主题的发展情况以信息地图展示“亮线”出现分叉,表示往多个方向发展“亮线”越粗,表示相关内容越多;“亮线”越亮,表示内容相关度越高;点每根“亮线”右边展示其时间段内的内容自动聚类信息趋势图自动摘要以整篇文章为摘要条件自动进行概念提取,形成文章摘要;围绕搜索条件作为摘要条件,进行相关概念提取,形成文章摘要;取文章第一段作为文章摘要;•Autonomy功能特色•搜索-发现•自动关联•聚类与信息提炼•个性化服务•其他个性化服务-主动订阅站内查看站内及时通信邮件推送手机短信。。。新建主题初始训练深入定义,如分类,部门,推送频度等挑选需要的内容文章个人自主订阅推送明天查看“期货市场”分类系统自动分析所有看过文章主题推送“化肥”以及“农业”以及“期货”相关最新今天查看“农业”相关文档系统自动分析所有看过文章主题推送“化肥”以及“农业”相关最新个性化服务-个性推送个性轨迹分析推送昨天搜索“化肥”相关内容,并查看结果系统自动分析所有看过文章主题推送“化肥”相关最新搜索详细内容查看文件上传信息回复。。。站内查看站内及时通信邮件推送手机短信。。。个性化服务-桌面搜索中化化肥个性化服务-桌面信息工具条九部门2007年开展农资打假专项治理。。。质检总局向全国质检系统发开展农资。。。财政部就2008年对种粮农民农资综合。。。化肥等农资全年将保持稳定供应2007年全国工商机关“红盾护农”行动。。。近日,国家工商总局局长周伯华对全国工商机关2007年“红盾护农”工作作出批示:全面落实科学发展观,努力。。。2007年,农业部会同国家发改委、公安部、监察部、工商总局、质检总局、供销总社、高法、高检等九部门,深入开展农资打假专项治理行动。。。。一年一度的春耕将至。为了贯彻落实党中央关于加强农业基础建设,进一步促进农业发展农民增收的指示精神,更好地服务三农。。。。2008年中央一号文件提出,要继续加大对种粮农民的农资综合直补力度,进一步促进粮食生产和农民增收。近日,记者就2008年农资综合直补。。。目前,国内化