大数据挖掘在社交网络中的应用邓雄人人网应用研究中心负责人人人网清华联合实验室负责人邮箱:xiong.deng@renren-inc.comRenrenid:@JohnnyDeng;Weiboid:@邓雄John关于我•人人网应用研究中心负责人人人网清华联合实验室负责人,•曾任职百度商务搜索部凤巢广告平台高级研发工程师•帝国理工(英)数据挖掘PhD•受邀演讲:–IBMIrelandResearchCenter(InEnglish),2010–中国系统架构师大会,2013.9–杭州阿里技术分享,2013.10–Top100Summit全球软件案例研究峰会,2013.11–GITC全球互联网技术大会,2013.11–…•人人网及人人应用研究中心简介•社交网络中的主要大数据挖掘任务•社交图谱挖掘与社会化推荐系统•社交图谱上的好友亲密度•社交图谱上的好友智能分组•多社交图谱融合-通讯录找人•社交热点内容检测及传播分析摘要fromiResearch.cn,Oct.2011机器学习•整合并改进机器学习前沿关键技术成果•涉及图挖掘学习、文本挖掘、社区检测推荐系统•研发面向超海量异构网状数据的推荐框架及算法•关系推荐、内容推荐社交网络•研究SNS和SMS的社会化生态圈•社交图谱、兴趣图谱、信息流MiningSNS@renren应用研究中心主要工作领域•人人网及人人应用研究中心简介•社交网络中的主要大数据挖掘任务•社交图谱挖掘与社会化推荐系统•社交图谱上的好友亲密度•社交图谱上的好友智能分组•多社交图谱融合-通讯录找人•社交热点内容检测及传播分析摘要fromiResearch.cn,Oct.2011导航浏览优化搜索排序好友推荐广告排序优化新鲜事排序+用户关系建模热点内容发现、预测Individuals好友关系推荐好友亲密度预估用户影响力预估用户信赖度预估用户隐私控制用户身份识别搜人排序Groups好友智能分组及自动命名用户群组划分可视化聊天群/讨论组推荐人脉关系检索多社交图谱融合LBS附近好友推荐Cascades热点UGC检测及预估新鲜事聚合新鲜事智能排序信息流传播可视化InterestGraphUGC内容推荐小组小站推荐用户兴趣发现智能用户保留与召回广告兴趣定向浏览导航优化StructureSocialGraph社交图谱挖掘主要任务???FriendRec.Products:可能认识的人、附近的人•二度好友模型、基于加好友趋势预估模型;•好友簇模型、接受率模型;•通讯录社交图谱合并算法;好友亲密度模型UserGroupingProducts:群聊讨论组推荐、好友分组FamilyLondonfriendsCollegematesRenrenColleaguesInterestDiscoveryProducts:人人头条、横插内容新鲜事推荐•知识图谱;•内容推荐;•热门话题发现;•广告定向•好友智能分组及自动命名;•群/讨论组推荐;•搜人排序;新鲜事排序社交图谱挖掘通用路标???FriendRec.Products:可能认识的人、附近的人•二度好友模型、基于加好友趋势预估模型;•好友簇模型、接受率模型;•通讯录社交图谱合并算法;好友亲密度模型UserGroupingProducts:群聊讨论组推荐、好友分组FamilyLondonfriendsCollegematesRenrenColleaguesInterestDiscoveryProducts:人人头条、横插内容新鲜事推荐•知识图谱;•内容推荐;•热门话题发现;•广告定向•好友智能分组及自动命名;•群/讨论组推荐;•搜人排序;新鲜事排序社交图谱挖掘通用路标•人人网及人人应用研究中心简介•社交网络中的主要大数据挖掘任务•社交图谱挖掘与社会化推荐系统•社交图谱上的好友亲密度•社交图谱上的好友智能分组•多社交图谱融合-通讯录找人•社交热点内容检测及传播分析摘要•背景:信息爆炸、信息过载1分钟互联网产生多少数据?•48小时新视频@Youtube•2000000次搜索请求@Google•684478分享消息@Facebook•100000条微博@Twitter•3600张照片@Instagram•推荐系统:给用户推荐符合其喜好的信息好友推荐,商品推荐,日志推荐,视频推荐,App推荐,广告推荐Amazon,Facebook,Google,Netflix,Youtube,Apple…“WearemovingfromanInformationAgetotheRecommendationAge.”–“TheLongTail”byChrisAnderson社交图谱挖掘与社会化推荐系统CollaborativeFiltering算法诞生,推荐系统诞生;GroupLensProject应用CF到新闻过滤Amazon商品推荐、CDNOW音乐专辑推荐使用Item-basedCF;MovieLens电影推荐;Karypis引入个性化推荐系统并逐步发展GooglePersonalizedNews推进个性化推荐技术影响力巨大进步NetflixPrize推荐大赛结束,推荐技术开始受到普遍关注,基于邻域的推荐算法得到较多改进;MatrixFactorizationmodels、多模型数据挖掘算法等开始广泛应用;Facebook公布其二度好友推荐算法,标志社会化推进技术逐步成熟。Hadoop平台已趋于成熟,Mahout子项目也逐步丰富1992年2003年2004年2009年2010年2007年推荐系统诞生推荐个性化推荐技术多样化推荐社会化推荐系统历史•社交网络的信息有什么特殊之处?信息特性:多样化,网状化,异构化实体•异构复杂数据新鲜事应用音乐专辑相册相片公共主页好友关系异构实体小组小站视频电影社会化推荐系统挑战•社交网络的信息有什么特殊之处?信息特性:多样化,网状化,异构化实体社交特性:社交关系是一种特殊的信息•SocialGraphSocialGraph“Theglobalmappingofeverybodyandhowthey'rerelated.”–BradFitzpatrick社会化推荐系统挑战•社交网络的信息有什么特殊之处?信息特性:多样化,网状化,异构化实体社交特性:社交关系是一种特殊的信息流动性:信息在社交网络中动态流动,加速增长,充满噪声•Cascades社会化推荐系统挑战•应用场景举例–Web端“好友推荐位”•应用场景举例–Web端“名片卡”(推荐解释)•应用场景举例–Web端“推荐好友新鲜事”•应用场景举例–Web端“连续推荐好友”•应用场景举例–移动端通讯录好友推荐、“附近的人”•应用场景举例–Web端照片内容推荐•应用场景举例–“人人头条”•应用场景举例–Web端“推荐加入小组小站”•应用场景举例–Web端“推荐聊天群”•….社会化推荐系统应用场景•应用场景举例–Web端“好友推荐位”社会化推荐系统应用场景•应用场景举例–Web端“名片卡”(推荐解释)社会化推荐系统应用场景•应用场景举例–Web端“推荐好友新鲜事”社会化推荐系统应用场景•应用场景举例–Web端“连续推荐好友”社会化推荐系统应用场景•应用场景举例–移动端通讯录好友推荐、“附近的人”社会化推荐系统应用场景•应用场景举例–“人人头条”社会化推荐系统应用场景•应用场景举例–Web端照片内容推荐社会化推荐系统应用场景•应用场景举例–Web端“推荐加入小组小站”社会化推荐系统应用场景•应用场景举例–Web端“推荐聊天群”社会化推荐系统应用场景•主要挑战之一在众多好友推荐位上展示推荐结果冗余,降低推荐效果众多好友推荐算法产生推荐结果难于融合好友推荐主要挑战•主要挑战之二Two-stepLinkPrediction目标增加好友关系的边数提高发送-接受转化率提升推荐准确度提升双方的体验(接受好友申请)Accept目标增加总体发送量提高发送转化率提升推荐准确度不足仅提升发送方的体验好友关系边增长缓慢(发送好友申请)Invitation目标增加推荐位提高曝光数不足算法策略不足用户体验较差(展示好友推荐)Showxx%x‰好友推荐主要挑战推荐业务推荐引擎推荐算法SocialGraph数据中心推荐引擎基础数据好友推荐用户page小站…Content数据统计策略控制推荐解释展示模块首页吸顶位guide首页一行四排…分享页新鲜事视频内容推荐新二度好友/好友簇/关联规则/用户趋势/…日志好友UserSocialGraph一度人脉:同学/校友/同事/老乡;二度人脉;同兴趣;亲人;情人;…协同过滤/内容关联/…统一排序过滤模块实验分流平台系统监控名片卡社会化推荐引擎架构线上统一排序模型•功能:(1)多种离线算法混合排序、所有推荐位统一排序•基于概念漂移检测算法来混合排序多个算法产生的好友推荐结果•不同算法权重归一化(2)线上推荐位衰减•基于show和加好友关系的衰减–PowerLaw•成果:移动端找人页和消息中心加好友量分别提高14.8%,17.5%•Results好友申请发送率提高近100%首页推荐位发送申请数提高近70%ufoff1f2𝒗𝒇𝒐𝒇=𝒇𝒊𝑭(𝜹𝒖,𝒇𝒊,𝜹𝒇𝒊,𝒇𝒐𝒇,𝒇𝒓𝒊𝒆𝒏𝒅𝒔𝒇𝒊,𝜽𝒔𝒕𝒂𝒕𝒊𝒄,𝜽𝒂𝒄𝒕𝒊𝒗𝒆)𝜃𝑎𝑐𝑡𝑖𝑣𝑒=0.6,𝜃𝑠𝑡𝑎𝑡𝑖𝑐=0.8,Δ=14days,𝜃𝑎𝑐𝑡𝑖𝑣𝑒=0.7,𝜃𝑠𝑡𝑎𝑡𝑖𝑐=0.6,Δ=1days,𝜃𝑎𝑐𝑡𝑖𝑣𝑒=0.3,𝜃𝑠𝑡𝑎𝑡𝑖𝑐=0.9,Δ=321days,𝜃𝑎𝑐𝑡𝑖𝑣𝑒=0.75,𝜃𝑠𝑡𝑎𝑡𝑖𝑐=0.85,Δ=42days,•Challenges怎样推荐潜在最佳二度好友?平均每个用户二度好友数在4万2亿用户*4万=8万亿网状海量数据:200TB日更新数据:10亿次•Computingparadigm建立好友关系的可能性:有10个共同好友是有1个共同好友为12倍HDFS/HBase/MapReduce•Thesystem线下计算:全量更新4.5小时/次;增量1小时/次线上更新:月活跃用户每天2次,日登用户每天4次好友推荐算法1:FriendsofFriends•算法原理:社会网络拓扑结构中存在大量的强关系紧密结构将用户分成簇,同簇的成员之间具备相近的社交关系•好友簇模型:最大团,层次聚类•效果:加好友转化率提高122%首页推荐位加好友数提高近89%好友推荐算法2:好友簇模型Jun.2013有道同事新入职人人同事人人同事大学同学商业产品部&应用研究中心主站&3G业务同事有道同事大学同学人人游戏同事renren@李伟•Motivation好友最大扩充的方向未必是当前时间最大的群组•Themodel发现用户对不同群组的倾向性根据用户反馈及时调整倾向性为用户推送当前时刻最想扩充的群组对应的好友Jun.2011增加近700条边好友推荐算法3:加好友趋势预估模型。。多数据源整合生成特征•Action/BusinessLOG•Cache•MySql•Hbase多模型组合提高精度•Boosting•RandomForest离线评估/模型更新自动化•MAE/RMSE•AUC•训练、评测、更新自动化线上实验•A/Btest•实时报表反馈DataCollectionActionLogCacheHBaseDataPreprocessingFeatureExtractionDecistionTreeSVMLogitRegressionRandomForestModelSelectionOfflineEvaluationModelUpdation线上实验...好友推荐算法4:接受率预估模型好友推荐算法5:连续好友推荐ExportActiveUserJobExportFriendListJobParallelCountingJobPFP-