董伟dw微博第一部分:HipHop算法——利用微博互动挖掘社交圈HipHop算法:利用微博互动关系挖掘社交圈数据分析微信公众号datadw——关注你想了解的,分享你需要的。在微博环境下,如何自动挖掘某个微博用户的社交圈子或者兴趣圈子是个很基础且重要的问题。如果能够对于某个用户在微博上体现的社交关系进行准确的挖掘,对于很多具体应用来说都有很好的作用,比如可以更好的对用户的兴趣进行挖掘或者能够推荐用户还未关注的社交圈子成员等,或者根据其社交圈子更准确的对用户进行个性化建模,为其它基于用户个性化模型的推荐或者广告推送等提供基础服务。我们在微博相关研发任务中提出了HipHop算法,旨在通过利用微博用户的互动行为,来自动挖掘出用户的不同社交圈子。在设计算法之初,我们希望圈子挖掘算法能同时满足以下几个条件:1.对于某个微博用户A来说,可以挖掘出其所属的多种社交圈子,比如用户既有同事关系圈,也有所属的专业兴趣圈。2.同时对于另外一个用户B来说,可能同时属于用户A的不同社交圈子,比如B既是A的大学同学,也是A的某公司同事,那么B应该同时出现在用户A的两个不同兴趣圈里。3.不使用用户隐私数据,出于保护用户隐私的目的,我们希望算法只使用用户公开行为和信息,所以HipHop算法只使用了互动关系这种公众完全可见的公开信息。4.社交圈可解释,即可以通过简洁的方式描述社交圈子的性质或者特点,目前是通过给每个圈子打上不同的标签来进行区分。HipHop社交圈挖掘算法就是在以上几个指导原则下设计开发出的,它能够同时满足以上几条约束条件,目前公开的参考文献中很少见到能够同时满足这些条件的相关社交圈挖掘算法。相关阅读:探寻微博背后的大数据原理:微博推荐算法简述》》》常见的社交圈挖掘算法社交圈挖掘是目前社交网络研究中非常典型和热门的研究任务,通常被称为“社群发现“。学术界也陆续提出了很多算法来解决这个问题,大体而言,可以将其分为两大类:”单社群“方法和”多社群“方法。所谓”单社群“方法,就是说网络结构中的某个节点只能隶属于某个社群,不允许出现隶属多个社群的现象。而”多社群“方法则允许用户同时隶属于多个社群。下面分别以GN算法和”最大团结构“作为这两类算法的代表对其思路进行简要介绍。GN算法GN算法是一种非常常用的图结构中社群自动发现算法,最初由Girvan和Newman在2002年提出,因其有效性得到了广泛的使用。GN算法的基本思想是:在图结构中,首先计算每条边的“介数”,然后从图中删除“介数”最大的边,如此不断循环,一直迭代删除当前“介数”最大的边,最终就形成了发现出的社群。所谓边的“介数”,是指的图中任意两个节点的最短路径中经过这条边的次数。边的“介数”越大,则这条边是连接了两个或者多个社群或者圈子的多余的边的概率越大,所以通过不断删除高“介数”边可以达到分离社群的目的。GN算法是有效的算法,但是这是一种“单社群”发现方法,就是说,对于图中某个节点,只能属于固定的一个社群,不可能同时属于多个社群,这个与实际应用场景需求是有较大差异的,形成了该算法的局限。“最大团结构“算法“最大团结构”(maxclique)是一种比较流行的能够进行“多社群”发现算法,即图中的节点可以同时隶属于多个不同的社群。“最大团结构”通过对图的拓扑结构进行分析,找到满足“最大团”性质的子图结构,也就是最大的全联通子图,每个“最大团”就是一个发现的社群。尽管“最大团结构”算法可以发现某个节点属于多个社群,比“单社群”发现方法有更多的实用性和应用场景,但是这个算法有其局限:因为“最大团结构”要求是全联通子图,即子图中任意两个节点都有边连接,这是一种非常强的约束。真实应用的图中往往满足如此强约束的这种图结构很小或者很少,这导致这个算法很多图中的节点无法归入某个社群。HipHop算法在某个步骤也采取了“最大团结构”的思想,但是通过技术手段放松了这种约束,有效地改进了其效果。利用HipHop算法发现微博里的社交圈Hiphop算法利用微博用户的互动关系来自动挖掘某个用户的不同社交圈子。这里的“互动”是一种总称,具体互动内容包括:转发微博、评论微博和@其它用户等行为,如果用户A和用户B有任意上述提到的行为则可以认为两者有互动关系存在,且根据其频率可以赋予边不同的强度,代表了两个用户的社交亲密程度。我们之所以使用社交关系来挖掘社交圈,是基于以下的一个基本假设:和某个微博用户进行过交互行为的人群存在不同的小团体,而小团体成员之内有较为密切的互动行为,不同小团体之间成员之间交互行为较少。比如你的大学同学之间在微博上有较多互动行为,但是他们和你的同事之间就很少有交互行为(参考图1)。尽管这只是一种假设,但是实际挖掘效果表明大多数情况下这个假设是成立的。HipHop算法的技术流程可以划分为顺序进行的三个步骤:步骤一:从与用户有直接互动的其它用户中寻找“最大团结构”首先,对于某个微博用户A,所有和用户A在微博上有过直接互动行为的用户形成直接互动集合S。本步骤试图在集合S中找到多个“最大团结构”,也即挖掘多个小团体的核心成员。对于集合S中的节点来说,可以根据他们相互之间的互动关系构造一个图G,在此基础上去挖掘图G中的“最大团结构”。所谓“团结构”,就是图G中包含的任意全连通子图,比如图G中的三个节点{a,b,c},如果他们之间任意两人都有互动关系存在,则形成了一个三节点的“团结构”。而所谓“最大团结构”,是指对于某个“团结构”T来说,无法在图G中找到任意其它节点n,如果把n纳入T,就形成更大的一个“团结构”。比如上述的三节点团结构,如果存在节点d,这个节点和a、b以及c都有互动关系,那么{a,b,c,d}就形成了一个四节点的“团结构”,而如果找不到节点能够和{a,b,c}都有互动关系,那么{a,b,c}就是一个三节点的“最大团结构”。图的“团结构”是一个非常强的约束,因为它要求图中任意两个节点都存在互动关系。步骤一找出的某个用户A的“最大团结构”的物理含义是:和用户A有密切关系的那些用户中,有哪些是有密切联系的小团体。步骤二:“最大团结构”在直接互动用户集合的扩充步骤一找出了与用户A有过直接互动行为的集合S中形成的“最大团结构”,步骤二在此基础上,在集合S范围内对每个发现的“最大团结构”进行扩充,来发现更多属于某个“最大团结构”的其它用户。具体的扩充方式如下:对于某个具体的“最大团结构”T,其包含若干用户,首先找到和T中用户有过互动行为,同时又在集合S中的其它用户,我们简称这个集合为U。对于U中的某个用户w,我们需要判断是否应该将其扩充进入“最大团结构”T,目前的判断标准采取如下公式:假设G是最大团T将用户w融合后形成的新图,公式的分子部分代表新图G中所有节点内部边的权重之和,而分母部分代表图G中所有节点和图G之外的任意节点形成的所有边权重之和。如果Utility(G)函数比未扩充节点w的原图结构T的效用函数Utility(T)值大,那么我们认为将节点w扩充进入T是合理的,否则不应该将节点w扩充进入图T中。有了这个函数作为标准,我们就知道集合U中的用户哪些应该扩充进入团结构T中,而哪些应该被舍弃。之所以采取上述公式作为判断标准,是基于之前提到的如下假设:一个社交圈子成员之间互动关系密切,而圈子成员与圈子外成员之间的互动关系不是很密篇二:从微博看社会化媒体广告的发展从微博看社会化媒体广告的发展班级:姓名:学号:指导老师:2011年12月2日星期五从微博看社会化媒体广告的发展社会化媒体是一种给与用户极大参与空间的新型在线媒体,它具有以下的特征:参与性、公开性、交互性、社区化和连通性,包括微博、维基、播客、论坛、社交网络等具体实例。微博广告作为一种刚刚兴起的广告发布媒介,虽然有其自身的传播优势,但在发展当中也存在着一些瓶颈问题,如果控制不好,反而会对广告品牌造成一定的伤害。因此我们在看到其微博广告自身优势的同时,还要对其在的问题进行分析,以促进微博广告更好的发展。目前,我国微博广告发展面临主要面临以下问题:一是广告发布主体资格的法律限制难以突破。根据《中国人民共和国广告法》规定,“广告主委托设计、制作、发布广告,应当委托具有合法经营资格的广告经营者和广告发布者。从事广告经营应当具有必要的专业技术人员、制作设备,并依法办理公司或者广告经营登记,方可从事广告活动。”另据《北京市网络广告管理暂行办法》规定,广告发布主体分为经营性互联网信息服务提供者与非经营性互联网信息服务提供者,前者具备一定的条件,经过登记可成为合法的广告发布主体,而后者则“不得为他人设计、制作、发布网络广告”。《北京市网络广告管理暂行办法》虽为地方性广告法规,但是依然可以看出其中蕴含的法律精神对微博个人发布广告主体资格的限制与否定。所以,我国微博广告的发布主体应该是具备了法律法规规定条件和资质的微博网站,而个人微博页面发布的广告却依然很难突破法律法规的限制。二是利益驱动下微博广告的可信度遭遇危机。商业利益驱使下可能会出现虚假和言不由衷的宣传,这些都可能加剧人们对微博广告的不信任感。特别是对话题广告和隐藏在微博中的广告推广,在广告主付费的情况下,微博和话题广告的作者能不能保持第三方的客观、公正的立场,又会不会对广告主的产品和服务说些溢美之词和言不由衷的话,误导和欺骗消费者。三是广告利润分配机制尚待完善和规范。在微博上登载的广告,广告收益究竟归免费提供空间的网站还是博主,这个问题一直以来人们未取得共识,尤其是涉及到名人与网站为广告费的争执更是引人注目。一方面,微博网站需要大量的人、财、物来维护网站,并且免费为个人提供微博空间,尤其是名人微博,更是放在显要位置以便积聚人气;另一方面,微博写手付出了大量的脑力劳动,靠自身的知名度和言论吸引来了高点击率和众多广告主,由此带来的广告费理应有微博写手的一份。四是微博广告商业赢利模式尚未成型和完善。从现今微博的发展中可以看出,微博广告的商业模式还处于探索期,IT精英们显然还没有想到办法。要找到一种使BSP(微博服务托管商)、Bloggers、广告商三方都能够接受的盈利模式,需要BSP不断地改进服务质量、博主们写出高质量高人气的微博、广告商的热力加盟,探索出让三方实现多赢的道路。五是微博广告在内容监管上风险可控性不足个人微博相对于传统大众媒体来讲,是一种相对自由和开放的私人空间,而且数量众多的个人微博是匿名的,这些都增加了微博广告发布内容监管上的难度。如何对这里的广告内容及其发布广告的产品或活动进行合法性审查,目前还没有明确的法律规定。从广告监管形式上来看,现有的广告监管形式是特殊广告事先审批,一般广告事后监管。无论是事先审批还是事后监管,微博广告的内容都很难做到监管无空隙,万无一失。如果这一监管漏洞被不法分子利用,使得虚假、违法广告充斥网络,甚至出现暴力、淫秽、恐怖等内容,那由此产生的副作用将贻害无穷。六是科学准确的广告效果评估是个难题。微博广告效果评估主要是测量、评估上网者对微博广告所产生的反应,它直接关系着广告主对广告投放的选择。很多人根据微博的点击率和访问人次来确定微博对广告收入所做的贡献,借以衡量微博的广告效果。实际上评估广告效果并非如此简单,由于受众的虚拟身份,广告效果的跟踪和监测显得无迹可寻。况且,由于微博广告对微博写手个人魅力的依赖,来自内容和写手口碑的因素很有可能影响微博广告的宣传效果,这加大了微博广告效果的可变性。在社会化媒体激烈的竞争形势下,微博的交互性优势为其赢得了前所未有的机遇。凭借着自身这一优势,微博可以发起各种不同形式的活动,通过这些活动吸引广告客户的加盟尤其是现在很多广告主更倾向于精准投放,以互动营销来提升营销力。对社会化媒体广告业来说,要想在不断竞争的状态下保持优势,获得长足发展,就要不断创新,按照市场发展的趋势,可以采用以下经营策略:首先,改变经营思路,实施“病毒式”营销。微博广告的本质就是一种病毒式营销,病毒式营销是一种常用的网络营销方法,它通过用户的口碑宣传网络,向用户提供免费的信息和服务,使信息像病毒一样传播和扩散,从而传向数以千计、数以百万计的受众。病毒式营销常用于进行