1论文题目:B博客信息挖掘摘要:随着产blog的快速发展,对产品的推广宣传产生了有效的作用,现对某一年博客数据进行分析,从而预测出所发博客在基准时间未来24小时所收获的评论数。针对问题一:为研究博客发表后的跟帖和转载情况,根据训练数据表中所给属性,从表中列出可能与之相关的因素,包括200个常用单词,发表时间,源博客数量等因素,将该问题考虑为统计学中的多元回归问题,利用软件SPSS对其做因子变量分析。针对问题二:利用控制变量法的思想,将众多因素分别考虑为自变量,将博客在基准时间未来24小时所获评论数作为因变量,然后把对训练数据进行筛选,剔除一些不合理数据,比如博客长度为0的数据,然后把剩余数据按因素分类累加,把具有相同因素的数据的因变量累加,使用SPSS进行聚类分析,然后以此为作出相应的图像,观察两者有没有关联。针对问题三:根据第二题的求解,在众多因素中剔除掉明显没有直接相关的因素。然后对剩余因素继续进行聚类分析求其相关系数,然后按照相关系数的大小进行排序。在第2问中通过初步的快捷方法得到的影响因素中,再对这些因素做逐步回归分析,更为精确地查找。针对问题四:根据前三问的求解所初步判断出影响目标变量的因素,综合这些因素,利用线性回归和逐步回归的方法,使用阻止增长模型来刻画影响因素对目标变量的关系,然后对应训练数据,对模型进行验证和修正,得出一个最符合的模型,然后利用该模型预测中2012年2月1日、15日、和29日的数据中所发博客在基准时间未来24小时所收获的评论数。关键词:博客因子变量聚类分析逐步回归控制变量微分方程法(由组委会填写)参赛编号2一、问题重述博客,它的正式名称为网络日志,是一种通常由个人管理、不定期张贴新的文章的网站。Blog是一个网页,通常由简短且经常更新的帖子(Post,作为动词,表示张贴的意思,作为名字,指张贴的文章)构成,这些帖子一般是按照年份和日期倒序排列的。借助博客平台推广,需要设计一定精加工内容的帖子进行发表,引起众人的兴趣,并能够将待推广产品融入到所发帖子中。并且在后续的大众跟帖、转载过程中,需要不断跟进产品推广进程,从而更好的推动产品推广,以及总结经验,更好的对发帖进行改进。由此可见,一个帖子从发表开始,在特定时间段到底有多少人跟帖和转载并给与评论直接反应了这个帖子的发表是否成功。这对于产品推广人和产品所有者来说都是至关重要的。附件给出了从博客网站提取的博客信息的调查数据,包含了发帖时间、帖子内容的关键词、跟帖评论数量、转载数量等等若干信息。本数据来源于博客,是从原始的网页数据进行抓取编译所得。为了更好的研究博客数据信息,我们选择了一个过去的时间基准,该基准时间被设定为2010年和2011年之间。选择选定的基准日期/时间之前最多72小时内所发表的博客帖子。检验数据的基准时间是在2012年的2月某几天。然后,我们计算所选择博客文章在基准时间所提供的所有的特征信息,因此每个实例对应于一个博客。训练数据(blogdata_train)中,所给数据包含了281个属性信息和6万条数据。数据以excel格式输出,其中每一列代表一个属性信息,每一行代表一条博客信息。下面给出所有属性信息的具体内容,其中前面的数字表示表格中的第几列:现要求通过数学建模来完成以下任务:1、研究所给数据分析博客发表后的跟帖和转载情况,对所给的200个常用单词(自行用代码表示)和发表时间等因素,分析它们之间的关联性和规律性,说明发表时间、常用内容单词等因素和跟帖与转载评论数之间是否相关,并给出理由?2、给出一种快捷方法初步确定对博客在基准时间未来24小时所获得的评论数量有影响的因素?3、根据第2问所确定的这些因素的影响度进行排序,并给出理由?在第2问中通过初步的快捷方法得到的影响因素中,是否有更精细的方法能够将重要的影响因素的范围缩小?如果可以,那么该如何做?4、根据所搜集的2010年和2011年的数据(blogdata_train),对所发博客在基准时间未来24小时所收获的评论数进行建模,给出所建立的模型?利用所建立的模型对附件中2012年2月1日、15日、和29日的数据中所发博客在基准时间未来24小时所收获的评论数进行预测。二、模型假设1.对于博客发表后的跟帖和转载情况的影响因素之间是相互独立的2.博客长度为0等属于不符合实际情况的数据可以剔除三、符号说明W:第i个博客所用200个常用单词的数量T:第i个博客的发表时间3S:第个博客的源博客数C:第i个博客的评论总数P:第i个博客的转载数C:第i个博客的24小时内的评论数P:第i个博客的24小时内的跟帖数C:第i个博客的48-24小时的评论数P:第i个1博客的48-24小时跟帖数L:第i个博客长度P:博客的跟帖数和转载评论数Z:目标变量,博客在基准时间未来24小时所收获的评论数四、问题一处理4.1问题分析根据数据挖掘法的思想,对训练数据表中的数据进行异常筛选,并在表中整理出所有与目标变量可能相关的影响因素,综合考虑这些影响因素,分析各个影响因素之间的相关性,再利用SPSS进行因子分析。4.2问题具体解决过程利用SPSS对可能相关的因素进行的Person相关性分析得出相关性表,如下图4.2.1。相关PWTSP皮爾森(Pearson)相關1.158**-.042**-.023**顯著性(雙尾).000.000.000N39647396473964739647W皮爾森(Pearson)相關.158**1-.022**.009顯著性(雙尾).000.000.063N39647396473964739647T皮爾森(Pearson)相關-.042**-.022**1-.008顯著性(雙尾).000.000.131N39647396473964739647S皮爾森(Pearson)相關-.023**.009-.0081顯著性(雙尾).000.063.131N39647396473964739647(表4.2.1)结果发现P和W相关性为0.158,而P和T、S的相关性分别为-0.042,-0.023是极弱的负相关性。我们决定再利用SPSS软件的因子分析法进行因素分析来检验我们得出的相关性是否正确,检验结果如表4.2.2、图4.2.1。4相关性矩阵WTSP相关W1.000-.022.009.158T-.0221.000-.008-.042S.009-.0081.000-.023P.158-.042-.0231.000(表4.2.2)(图4.2.1)根据图4.2.1,我们发现W与P相互比邻,所以得出结论P与W具有强相关性,而P与T、S关联性较弱。最后,我们需总结出常用内容单(W)和跟贴与转载评论数(P)之间的规律性,利用SPSS软件的一元线性回归分析法,得出表4.2.3、表4.2.4。模型摘要模型RR平方调整后R平方标准偏斜度错误1.158a.025.025120.0495(表4.2.3)a.预测值:(常数),Wb.應變數:P系数a模型非标准化系数标准化系数T显著性B标准错误Beta1(常数)14.4001.09313.170.000W2.263.071.15831.923.000a.應變數\:P(表4.2.4)根据表4.2.3,由于调整的判定系数0.025较接近1,因此认为模型拟合优度较高。通过表4.2.4得到模型系数的概率值可以发现,常数项系数差异不显著,而W的系数差异显著,因此可以留在模型中,即该模型为:W263.2P图表:(图4.2.3)6(图4.2.4)从而我们得出问题一的结论,发表时间(T)、常用内容单(W)、源博客数(S)和跟贴与转载评论数(P)之间相关,但常用内容单(W)和跟贴与转载评论数(P)之间具有强相关性,发表时间(T)、源博客数(S)和跟贴与转载评论数(P)之间具有弱相关性。常用内容单(W)和跟贴与转载评论数(P)满足规律W263.2P。五、问题二处理5.1问题分析综合考虑发表时间(T)、常用内容单(W)、源博客数(S),跟贴与转载评论数(P)这几个因素,作为自变量,利用线性回归法做多元回归分析,构成一个线性组合。利用直方图和散点图来形象地表示其与目标变量Z的关系。在线性回归中,使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。5.2具体问题求解过程:根据训练数据,求解影响因素和目标变量相关性7系数模型非标准化系数标准化系数T顯著性B的^1信赖区间相关B標準錯誤Beta下限上限零階部分部分1(常數)6.201.56710.934.0005.0907.313W.148.025.0305.892.000.099.197.031.030.030T-.029.112-.001-.257.797-.249.191-.002-.001-.001S-.182.128-.007-1.415.157-.433.070-.007-.007-.007p.003.002.0101.956.050.000.007.015.010.010a.應變數\:Z(表5.2.1)(图5.2.1)8(图5.2.2)(图5.2.3)9(图5.2.4)根据以上四幅图,可以看出W,P与目标变量Z的相关性强,与T,S相关性弱。六、问题三处理6.1问题分析:根据第二问的求解,初步判断出主要的影响因素,把这些因素依次按拟合度排序,即可得到其顺序,然后利用逐步回归继续分析因素与目标变量之间的关系,并用直方图和散点图形象的表示出来。6.2问题具体求解过程:10010002000300040005000600070001234567(图6.2.1)模型變數已輸入變數已移除方法1W.逐步(準則:F-to-enter的機率=.100,F-to-remove的機率=.110)。2p.逐步(準則:F-to-enter的機率=.100,F-to-remove的機率=.110)。a.應變數:Z(表6.2.1)ZWTSp皮爾森(Pearson)相关Z1.000.031-.002-.007.015W.0311.000-.022.009.158T-.002-.0221.000-.008-.042S-.007.009-.0081.000-.023p.015.158-.042-.0231.000显著性(單尾)Z..000.322.081.001W.000..000.031.000T.322.000..065.000S.081.031.065..000p.001.000.000.000.11NZ3964839648396483964839648W3964839648396483964839648T3964839648396483964839648S3964839648396483964839648p3964839648396483964839648(表6.2.2)第二次只加入W、P相關ZWp皮爾森(Pearson)相關Z1.000.031.014W.0311.000.158p.014.1581.000顯著性(單尾)Z..000.000W.000..000p.000.000.NZ523975239752397W523975239752397p523975239752397(表6.2.3)變數已輸入/已移除a模型變數已輸入變數已移除方法1W.逐步(準則:F-to-enter的機率=.100,F-to-remove的機率=.110)。2p.逐步(準則:F-to-enter的機率=.100,F-to-remove的機率=.110)。a.應變數:Z(表6.2.4)係數a模型非標準化係數標準化係數T顯著性B標準錯誤Beta1(常數)4.764.33014.422.000W.155.022.0316.987.0002(常數)4.713.33114.235.000W.148.023.0296.546.00012p.004.002.0102.230.026a.應變數\:Z(表6.2.5)由以上可以得出结论,与W相关性最强,七、问题四处理7.1问题分析本题中如果利用全部数据区域来建立评论数增长模型,所发博客在基准时间未来24小时所