社会化新媒体与非结构化大数据分析ResearchonNewSocialMediaandUnstructuredBigDataAnalysis张华平博士副教授大数据搜索与挖掘实验室kevinzhang@bit.edu.cn传统媒体之殇生产《渠道《品牌《社群写书的不如卖书的;卖书的不如卖粉丝的传统媒体之殇平面纸媒传统造成信息孤岛基因历史内容挖掘的价值增值;世界为我所用:今日头条:我们不生产新闻,我们只是新闻的搬运工内容为王vs.用户为王小数据精英vs.大数据技术10传统媒体之殇社会化媒体社会化媒体(社交媒体)运用易涉入和传播的沟通技术并以社会化交流为目的的媒体。特点:社会关系+传媒社会化媒体发展历程19951999BBSIM博客20002005视频社区微博微信20092011传播要素解析主体时机受众内容媒介传媒时代报纸/电视互联网1.0新媒体内容正式半正式非正式传播方式一对多广播,无反馈的;少对多浏览,弱化社交多对多,社交型,主体授权机构,少数大部分网民几乎所有人受众被动接受,参与感弱主动获取,部分参与主动推送,收发全参与生产过程先审后发先发后审即发少审时机/速度24-72小时1-2小时即时,快且影响面广代表人民日报,CCTV新浪新闻,博客,微博,微信,facebook场景政府宣传,传教小范围演讲互动对等交流传统媒体vs.新媒体情欲营销情营销情感营销艾克曼:喜、怒、哀、惧仇官仇富情绪同情与代入感情欲情感情绪社会媒体传播实战技巧:内容马斯洛需求层次理论1.代入感原则,拒绝自嗨社会媒体传播实战技巧:内容2.拉家常讲故事,拒绝高大全空洞说教社会媒体传播实战技巧:内容3.角色个性化拒绝平庸:幽默风趣,借题发挥社会媒体传播实战技巧:内容社会媒体传播实战技巧:内容主题创意(幽默、借用,故事性)、好记易传播(3-4音节)打土豪,分田地微笑局长表叔房姐我爸是李刚土豪,我们交朋友吧光盘计划纲要IIII社会化新媒体非结构大数据IV新媒体分析实战案例大数据搜索与挖掘关键技术II非结构化大数据我们的见解:大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识,转化为智慧的方法学。是一场新的科技革命,也是思想方法的革命。(全量分析,让数据说话;承认并客观地认识世界的混杂性;相关性挖掘替代因果推断)杨达才启示:1+12才是大数据近半世纪来的三次革命BigData计算机时代互联网时代大数据时代20世纪90年代21世纪10年代计算方式的革命信息传播方式的革命决策方式的革命20世纪70年代大数据颠覆决策模式决策主体决策依据决策机制决策效率usinessonsumerupplyemandeedbackredictionurationealtime大数据时代的特征多快好省大数据应对之道:知著、见微、晓意不“晓意”的尴尬不“晓意”的尴尬•WhowasChinesePresidentin2012?•Hu.•Who?•WhoisChinesePresident?•Xi.•She?HuJintaoXiJinping机器理解自然语言?我们做鸡对了。我们就是做鸡的.我们行使了鸡的权利.右面的鸡才是最好的我们只做鸡的右侧.我们公正的做鸡!我们的材料是正宗的鸡肉.右面的鸡才是最好的我们一定要把鸡打成右派!!!我们只做右撇子鸡(要吃左撇子鸡请去麦当劳)客观世界-思维-自然语言衰减效应:思维最多只能反映80%的客观世界;自然语言只能反映80%的思维:词不达意,答非所问;听众最多只能听懂80%;听懂的部分只有80%能反映到思维中;分析客观世界的最多只能利用80%。大数据更大意义上是非结构化内容理解纲要IIII社会化新媒体非结构大数据IV新媒体分析实战案例大数据搜索与挖掘关键技术II非结构化大数据•搜索基本功能:•多字段关联搜索、指定字段排序、精确搜索与模糊搜索•搜索特色功能:•内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;•内嵌了ICTCLAS智能分词系统;•数据库实时同步:数据库增删改10秒内即可同步到搜索;•搜索维护功能:•单点故障容错;支持增量索引;自动备份与恢复机制;自动缓存机制;自动优化机制;搜索屏蔽与恢复;JZSearch大数据精准搜索ICTCLASIndexerSearcherAdapterindex1docindex2indexnManager….MySQLSQLServer/OracleHbase/MongoDBusersadminMergeReloadSaaSAPIappsDeleteStat.deleteddeletedEditSimDictLexiconJZSearchBigDataSearchEngineArchitectureJZSearch内部语法示例[FIELD]*[NEAR]尚福林##负面JZSearch##12[FIELD]price[RANG]1.09.0[FIELD]name[AND]牛奶儿童[FIELD]name[PREF]张姓名字段name必须以“张”作为前缀开头[FIELD]id[PREC]123字段id必须以“123”精准匹配,如“1234”或者“0123”均不作为匹配结果;[field]content[complex]统计局||中国统计局||CPI骗人||砖家10要求content字段内,同时出现{统计局||中国统计局||CPI}{骗人||砖家},且两者之间的距离必须在10个词内。搜索结果自动分组统计搜索结果自动分组统计我们的工作:JZSearch精准搜索引擎NLPIR大数据搜索与挖掘技术开发平台NLPIR网络搜索与挖掘共享开发平台,针对语言信息内容处理的全技术链条的共享开发平台。15年专业研究与工程积累,提供应用软件及各平台下的二次开发包,非商用永久免费。下载。核心功能包括:搜索类:全文精准检索;语言类:新词发现,分词标注,统计分析与术语翻译;关键词提取;文档类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析NLPIR大数据搜索与挖掘技术开发平台NLPIR之关键词提取文本聚类:发现热门事件NLPIR之大数据聚类大数据应用案例:用户画像利用每日新增的网络访问日志数据500G,采用大数据挖掘技术,提供商情精准营销增值服务。微博博主情绪感知价值观挖掘:一言一行背后的机理黄金眼Web大数据搜索与挖掘云平台纲要IIII社会化新媒体非结构大数据IV新媒体分析实战案例大数据搜索与挖掘关键技术II非结构化大数据2008.5.20台湾地区领导人马英九就职演说我们55;台湾47;民主21;两岸15;国际13;人民12;全球11;社会11;中华民国9;政治9;一定8;关系8;和平8;未来7;历史7;经济7;英九7;共同6;发展6;协商5;宪政5;国家5;价值5;政府5;大陆5;核心4大数据挖掘:台湾政治生态解读2012马英九就职演说我们80;台湾42;两岸21;国际19;经济19;文化18;产业16;未来14;社会13;中华民国12;发展12;民主11;人民11;国家10;自由10;成长10;竞争力9;和平9;政府8;人才8;关系8;人8;创造8;开放8;安全7;我国7;推动7;环境7;机会7;司法7;支柱7;幸福7;合作7;大陆6;宪法6;全球6;政策6;世界6;公民6;改革6;投资6;民众6;价值6;大数据挖掘:甄嬛体?汪峰体?天气公报的自动生成49本文选择对“失独”这一主题进行实验分析。因为家中唯一的子女不幸离世,这样的家庭被称为“失独家庭”。家中的老人即被称为“失独老人”。通过在微博平台上寻找与“失独”相关的群体,合理地检验模型的有效性,并且结合微博文本分析方法和关系分析方法对这一特定群体进行案例分析,从数据的角度对案例进行分析解释。语义种子用户的关系网络的迭代演变过程用户关系网络描述表“张灵甫”事件的新媒体传播分析微博数:230064持张灵甫:反对81.6%:18.4%(去除没有明确偏向的)“张灵甫”事件的新媒体传播分析所有参与者的观点分析草根的观点分析大V的观点分析媒体的观点分析张华平Email:kevinzhang@bit.edu.cn微博:@ICTCLAS张华平博士微信:drkevinzhang公众号:大数据千人会欢迎大家访问大数据搜索与挖掘实验室官网:感谢关注聆听!