PEKINGUNIVERSITY1898博士研究生毕业论文题目:社会化媒体中提升用户参与度的关键因素研究姓名:孙韬学号:10848881院系:信息科学与技术学院专业:计算机软件与理论研究方向:语义网与文本信息挖掘导师:张铭教授二〇一三年六月北京大学博士研究生毕业论文–ii–社会化媒体中提升用户参与度的关键因素研究孙韬计算机软件与理论导师:张铭教授摘要短短几年间,社会化媒体得到了迅猛的发展,用户数量和覆盖率不断刷新记录,在社会生活中的地位和作用日渐重要。社会化媒体的核心是“社会化”,即用户的参与和互动。可以说,社会化媒体的根本价值来自用户参与的广泛性与互动性,参与度的低迷将直接导致用户的流失和平台本身的没落。而只有从理论上和本质上深刻影响用户参与的因素,才能为社会化媒体的实际应用如推荐和搜索提供有意义的指导。本文从多角度展开了对社会化媒体用户参与度的研究。首先,需要避免千遍一律的枯燥和雷同,单一的内容会让用户乏味而离开,即需要保证多样性;其次,仅有多样性是不够的,必须同时保证内容的相关性和有用性,让用户收获意料之外的发现,即在多样性之上为用户带来眼前一亮的意外惊喜;最后,考虑到多样性和意外惊喜仅提升了用户个体层面的体验,应该继续挖掘用户关系,在网络层面上激发更多互动和共鸣,实现广泛的信息传播,由此,本文进一步对用户之间的影响关系进行深入挖掘以最大化整体参与度。对于以上激励用户参与的三个重要因素—多样性、意外惊喜和影响关系,本文分别展开了以下深入研究。在多样性与参与度的研究上,以微博为例,本文对社会化媒体用户的个体网络和所读内容的多样性进行了实证研究。首先,使用四种不同的度量方法量化了多样性;之后,对多样性进行了时序分析,发现了微博用户的多样性随着时间增长;最后,考察了多样性与用户参与度的关系,实验发现:结构层面的多样性与–iii–摘要北京大学博士研究生毕业论文原创数量显著正相关,而内容层面的多样性则对原创数量没有太大影响,这说明平台应该有意识地引导用户加入多个不同的圈子;不同度量方式下,转发数都随着多样性的增长而增长,这说明在平台设计中加入多样性元素能有效提升用户的参与度。在意外惊喜与参与度的研究上,本文首次对意外惊喜现象进行了基于大规模用户行为数据的量化研究,提出了一种识别意外惊喜的高效算法,并计算了意外惊喜在社会化媒体中的存在比例,揭示了其对用户参与度的正面作用。意外惊喜指的是一种非预期的收获或无意中的发现,其在信息系统中对用户体验和用户参与的积极作用已得到了学术界和工业界的普遍认同,但这种作用仍缺乏由大规模数据下的理论研究支持。本文定义社会化媒体中的意外惊喜为“意外的相关性”。在该定义下,基于统计假设检验,本文提出了一种全新的方法来自动、快速、准确识别信息传播中的意外性、相关性和意外惊喜,该方法适用于多种信息系统,如推荐系统、检索系统和广告平台。使用该识别方法,本文计算了意外惊喜在微博信息传播中的存在比例,在Twitter的转发中约占27%,在新浪微博的转发中约占30%。最后,通过相关关系分析和因果关系分析,本文揭示了意外惊喜对社会化媒体中用户参与度(活跃度和社交度)的正面作用。在影响关系与参与度的研究上,本文利用影响关系提升社会化媒体的整体参与度,抽象并公式化了参与度最大化问题。为了解决此问题,首先,通过随机测试验证了影响关系对用户参与行为的驱动作用;其次,提出了一种迭代算法,根据用户历史交互数据计算用户之间的影响关系;最后,针对参与度最大化问题,提出了一种高效的启发式算法TABI,实验显示该算法在整体参与度的提升上,性能显著优于推荐算法和社会财富最大化问题的近似算法。基于影响关系的参与度最大化是推荐系统新思路的一种探索,即出于提升整体参与度的考虑,在推荐中不仅需要匹配当前用户的兴趣,还需要考虑当前用户影响力带来的未来参与度。综上所述,本文深入研究了提高社会化媒体用户参与度的三个关键因素:多样性、意外惊喜和影响关系。实验结果表明,以上三个因素均对用户参与度均产生积极作用。因此,在实际应用和系统设计中,可以借鉴本文提出的算法、技术和框架,在信息内容和用户关系两个层面为用户带来更好的用户体验,从而有效提升社会化媒体的互动程度和参与程度。关键词:参与度,社会化媒体,影响关系,意外惊喜,多样性–iv–AComprehensiveStudyonKeyFactorsofEncouragingUserParticipationinSocialMediaTaoSunSchoolofElectronicsEngineeringandComputerScienceDirectedbyProf.MingZHANGAbstractAstechnologyhasevolvedandtheaccessibilityofonlinemediahasincreased,thepopularityofsocialmediahasgrownatanunprecedentedrate.Socialmediaprovidesanewchannelofcommunication,andgraduallychangesthewaypeopleconsumeinformation.Amongall,themostvaluablecomponentsofsocialmediaareparticipationandactivity.Theuniquecharacteristicssuchassocialinteractionandinformationflowdecidethegreatvaluesofsocialmedia.Thus,anin-depthunderstandingofuserparticipationcanhelpimplementsocialmediaintobusinessmarketingplans,andbenefitthelifeforcivilsocietyworldwide.Inthispaper,weconductacomprehensivestudyonuserparticipationinsocialmedia.Inordertoincreaseuserexperienceandmotivateuserengagements,wecon-centrateonthreekeydimensions:diversitytohelpusersexplorevariousterritory,serendipitytobringusersmoresurpriseandinterestingness,andsocialinfluencefromfriendsthatincreasesusers’likelihoodtorespond.Ourstudytowardseachdimensionareelaboratedasbelow.Firstofall,wehavealllearnedoneoflife’sgreatlessons:diversityisbeau-tiful.Inthestudyofdiversity,weproposefourmetricstoquantifydiversityinmicroblogs,andtheresultsoftemporalanalysisshowthatdiversityincreaseswith–v–Abstract北京大学博士研究生毕业论文time.Ourexperimentsalsodemonstratethatdiversityisastrongpredictorofuserparticipationincludingsocialinteractionanduserengagement.Inthestudyofserendipity,weinvestigatetheubiquitousoccurrenceofserendip-itiousinformationdiffusionanditseffectinthecontextofmicrobloggingcommu-nities.Serendipityisabeneficialdiscoverythathappensinanunexpectedway.Ithasbeenfoundspectacularlyvaluableinvariouscontexts,includingscientificdis-coveries,acquisitionofbusiness,andrecommendersystems.Werefertoserendipityasunexpectedrelevance,thenproposeaprincipledstatisticalmethodtotesttheunexpectednessandtherelevanceofinformation,whichidentifiesaserendipitousdiffusionofinformation.Ourfindingsbasedonlarge-scalebehavioralanalysisrevealthatthereisasurprisinglystrongpresenceofserendipitousinformationdiffusioninretweeting,whichaccountsformorethan25%ofretweetsinbothTwitterandWeibo.Upontheidentificationofserendipity,weareabletoconductobservationalanalysisthatrevealsthebenefitofserendipitytomicrobloggingusers.Resultsshowthatboththediscoveryandtheprovisionofserendipityincreasethelevelofuseractivitiesandsocialinteractions,whiletheprovisionofserendipitousinformationalsoincreasestheinfluenceofTwitterusers.Inthestudyofinfluence,forthepurposeofencouragingoverallparticipationthroughsocialinfluence,weformulatetheproblemofparticipationmaximizationandproposeanadvancedalgorithmassolution.Morespecifically,westudythefollowingthreeimportantaspectsoftheproblem:1)influencevalidation,forwhichweproposeastatisticalshuffletesttoverifythatsocialinfluencedoesmotivatepostingbehaviorsinsomeforums;2)influenceanalysis,forwhichweproposeanit-erativealgorithmtoestimateinfluenceprobabilitiesbetweeneverypairofusers;and3)participationmaximization,forwhichweproposeabudgetconstraintSideBarschemetoallocatethreadstoallusersbasedontheirsocialinfluencetomaximizeuserparticipation,andweformulatetheproblemintoasocialwelfaremaximizationproblemwithsubmodularutilityfunctionsandapplyanapp