主讲人:周富秋博士2009年11月24日智能计算助力互联网的进化公司简介海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用从字符到语义从非结构化到结构化行为分析在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务互联网现状(1)CNNIC的最新报告显示,截止今年6月30日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中:国家顶级域名注册量达1296万网民规模达3.38亿,较去年底增长13.4%宽带网民规模达3.2亿,占总网民数的94.3%手机上网用户达1.55亿,半年内增长了32.1%网络普及率达25.5%互联网现状(2)纵观全球:互联网每天的点击数有1000亿次全球所有的网页之间有55万亿个连接互联网中有10亿个芯片每秒2百万封邮件;3.1万条短信246HB的存储空间--多么大的一个磁盘互联网上每秒产生的流量有7TB之多互联网消耗了全球电力的5%互联网现状(3)数据累积量急剧增长、大量有价值的信息被淹没,呈现“信息过剩”信息是异域、异构、非结构化的,呈现“信息孤岛“实质“资源利用率低”:GoogleVS百度互联网阴霾之概括:多–信息过量、难以消化杂–信息真假、难以识别乱–信息安全、难以保证难–信息形式不一、难以统一处理互联网未来转量变为质变依赖网站模式创新:原创型、专业性、地域性、互动性。。。网站技术创新:智能计算、数据挖掘、信息融合。。。以内容为纽带,将整个互联网搭建成一个语义逻辑整体从字符到语义词实体……自然语言分词应用层次研究层次命名实体、事件、主题标注关键词技术知识网络:概念树自动消重无指导自动聚类半监督自动分类技术有指导自动分类(层级分类)命名实体识别新词发现知识网络:实体属性-关系库机器翻译NLP搜索基于命名实体的聚类基于命名实体的分类基于命名实体的关联半监督学习从非结构化到结构化非结构化不可计算网页文本pdf图像影像结构化可计算定义类型属性运算逻辑值域H2X信息抽取技术视觉还原技术版式识别技术创建知识网络NBA科比麦迪乔丹朱芳雨CBA姚明链接中国男篮与美国男篮的桥梁通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律刘玉栋王治郅姚明即是NBA的强链接,又是NBA群与CBA群间的桥梁——结构洞弱链接与强链接:发现潜在的信息桥梁解决方案:海纳在线数据挖掘服务格式分析•HTML语法分析•OCR、OFFICE/PDF等文档内容提取*版式分析•基于视觉的模式识别•体裁分析*语法分析•词法分析•句法分析、语体分析*语义分析•命名实体识别•信息抽取*形式化分析自然语言分析结构化信息RDF、RDFSchemeDOC,XLS,PDF,DB…图像,音频,视频TXT,XML,HTML…解决方案:延伸阅读-用户体验和智能对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容利用实体识别与关系分析等智能计算手段,实现聚类、实体与主题提取精彩计算,随需而变点亮阅读、增加粘度降低制作成本、盘活已有资源更精准,更易于互动、实现个性化传统的方法:热点词--只有发生了很久,才能通过统计得知是热点现在的方法:时间维度与类别维度--满文军是明星,萧淑慎是明星,吸毒只要和这些人相关就是敏感新闻未来的方法:时间维度,同现维度及敏感维度--大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来解决方案:热点发现、跟踪与预测(1)未来的方法乔布斯披露健康状况苹果股票应声上涨乔布斯宣布要休病假苹果股票应声下跌10%…乔布斯与苹果股价:一种稳定的关系人物乔布斯杨惠妍巴菲特股票中石化中石油苹果乔布斯的健康情况直接影响到了苹果股价解决方案:热点发现、跟踪及预测(2)解决方案:智能检索与推送用户行为分析、意图识别、智能引导买房房地产房贷新盘0.10.50.2房价0.4时序统计房产名称专家预测用户行为分析命名实体属性库实体关系库解决方案:舆情分析与跟踪别克昂克雷在论坛、博客等识别出的命名实体将可以获取民间的产品评价为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析基于知识网络的智能计算:实现通过网络了解民情、汇聚民智通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略词群资讯分类知识树父节点敏感性T男女喜好年龄偏好…总频率姚明、火箭NBA当下不敏感偏男性/80%14~40…4117932贷款、房产房地产当下敏感偏男性/75%24~50…562144…………………LV,PRADA流行当下不敏感偏女性/90%16~35…3127针对男性、24~40进行聚类,获得一个个子群体,通过更多的词群予以表示解决方案:个性化服务解决方案:网站净化服务“和讯网”垃圾帖过滤净化--》疏导助力客户•增效,即提升清除效果、网站运营、品牌价值•省力,即节省人力、财力、心力•创建稳定、和谐的网站环境达到客户期望的效果人员等成本节省60%以上持续保持处理正确率90%以上7×24小时不间断服务10秒内自动处理解决方案:网站净化服务(案例)www.hylanda.com互联网数据/内容挖掘路径•主题抽取、深度标引•比对、统计形成二次情报•对决策具有指导意义知识情报•消重、结构化、索引、分类•具备基本利用价值信息•广泛采集•数量大•价值低数据“海量”时代的到来信息匮乏信息爆炸•新浪•搜狐•网易信息搜索•百度深度挖掘•海量媒体网站的未来将互联网的数据转换为情报/知识情报/知识转换为决策决策转换为利润将媒体网站建成安全网、诚信网、绿色网谢谢!www.hylanda.com