互联网挖掘与搜索的机遇与挑战程学旗2006.11.21中国科学院计算技术研究所中国中文信息学会25周年大会报告内容提要zWeb搜索与挖掘的关键技术与挑战z我们的工作z结论Web搜索的发展UnifiedBrowsingUnifiedSearchPersonalizedSearchPersonalizedInfoSpace“Web2.0”:热闹背后的变化z行为模式的变化–Architecture:Fromserver-centeredtoPeer-distributed–互动参与:P2P,Blogz状态特征的变化–Streaming:FromINFORMATIONtoMESSAGEz内容表征的变化:RichContent–多源头、大规模–RichDimensions机遇与挑战功能模块化服务规模化大包大揽式的搜索引擎可定制的内容管理软件包个性化资源化垂直搜索个性化信息空间Whatisthenext?社会化?无中心无边界基本特点:消息流、交互性与参与性、多维度、无中心老问题的新特点zStreaming:Messagevs.Text/SentencezDynamic“context”sensitive?z丰富维度特征空间z内容特征、结构特征、拓扑特征、变化率特征z多维度融合计算是新策略还是新战略?z可计算性:从同一性到差异性zUnifiedRANKINGhassomanybiases!Identityvs.Othernessz没有统一偏序关系的相关性判定如何做?z关于深度计算–深度计算不等同于语义计算或者是深度内容计算–TradeoffbetweendeepunderstandingandperformanceShadowandefficientprocessing–深度的再判定:结构、内容、行为的交集现实需求1:对互联网“蝴蝶效应”的判定与预测z现象1:网络话题在互联网上产生的“蝴蝶效应”–“超级女声”产生信息涌现所导致的“草根文化效应”–“虐猫事件”、芙蓉姐姐–“馒头”、“无厘头”文化现象z现象2:网络事件所产生的社会效应–“孙志刚事件”对国家政策法规方面的影响–Q币、QQ挂机策略所导致的对社会其它行业的影响z是否可以判定?如何判定?是否可以预测?z问题的本质(Emergenceprediction):–复杂信息网络的涌现性分析与度量–内容涌现、结构涌现、……–复杂信息网络中微观、中观、宏观要素的度量、分析现实需求2:社会性软件z融入互联网中的话语权竞争–商业竞争的需要:从眼球经济到话语经济。i.e.电信运营商–文化与社会安全的需要:z社会性软件平台–腾讯、盛大、新浪z社会性软件工具–自适应式网络聊天机器人–……z问题的本质(SituationAwareness):–感知(Dynamiccontext)–判定(倾向性、热点、潜在点、……)–疏导(……)现实需求3:非确定性信息的量化计算–流通度–分布度–综合热度–聚焦热度–时间分布度–区域分布度–漂移度–传播速率–热度变化率–拐点–活力度–介度–……科研界还能做什么?z对已知关键技术的改进–自然语言处理与内容分析–内容挖掘:分类、聚类、信息提取、TDT、…–互联网结构特征计算–……z互联网挖掘的新策略–社会信息网络的建模与计算模型–数据流挖掘–前面提到的一些技术我们的工作Researchtopics大规模文本分析与网络挖掘:Dr.许洪波等确定性(浅层)自然语言处理:Dr.张华平等网络搜索:Dr.张刚、王斌etc大规模特征扫描、数据流挖掘:Dr.谭建龙等网络结构挖掘与社会计算:Dr.刘悦、陈海强等P2P计算:Dr.吕建明等SharableSystems分词与词法分析软件:ICTCLAS全文索引与检索平台:FirteXzAbout80personsinI3S–About30researchfacultyz2Academicians,2professors,7associateprofessors–Morethan40studentszOver20Ph.dcandidates,over15mastercandidates研究动机与研究内容–社会信息网络是一个复杂的巨大规模系统–互联网挖掘与搜索的传统思维是集中式、深度内容计算,其策略类似拿着放大镜到大海里寻针–物理学家的跨越式思维对我们的启发?–当信息规模上升到一定程度之后,社会安全、内容搜索以及交互式新型信息共享与信息服务应该有更加有效的表示与计算模式方向:1.复杂信息网络的基本特征与模型2.面向社会计算的体系结构与系统3.网络关系挖掘与多维度特征融合计算现阶段工作进展z社会信息网络的特征发现与建模z社区发现与网络关系挖掘z自组织的轻量级网络操作系统LIOSz相关应用:互联网搜索与挖掘、信息安全、信息分析等Thanks!