面向移动商务智能的数据挖掘方法研究陈恩红中国科学技术大学计算机学院内容提纲2背景介绍1移动应用商店排名欺诈检测2情境感知的移动推荐系统3基于扩展信息的移动应用分类4结束语5内容提纲3背景介绍1移动应用商店排名欺诈检测2情境感知的移动推荐系统3基于扩展信息的移动应用分类4结束语5移动商务智能概述近年来,移动互联网产业迅猛发展,根据中国互联网信息中心2013年发布的《中国互联网络发展状况统计报告》,2012年是中国移动互联网市场爆发式增长的一年,移动网络从3G向4G升级,移动设备用户数超越了台式电脑数,我国手机网民规模已超过4.2亿,占整体网民数量的比例74.5%。各种移动应用和智能服务,如智能移动应用程序,基于位置的服务等,在规模上同样出现了**式增长。4移动商务智能概述移动商务智能为移动商务服务及应用的开发、决策、运营等提供智能分析与挖掘方法典型的移动商务智能:移动推荐系统移动用户行为分析移动城市计算5移动商务智能-移动推荐系统6出租车载客路线推荐移动用户团购推荐移动商务智能-移动用户行为分析7移动用户重要地点发现移动用户行为模式分析移动商务智能-移动城市计算8城市功能区域划分智能行驶路线推荐(d)(e)移动线路重构移动商务智能的机遇---数据9移动用户情境数据移动应用商店数据内容提纲10背景介绍1移动应用商店排名欺诈检测2情境感知的移动推荐系统3基于扩展信息的移动应用分类4结束语5移动应用商店排名欺诈检测随着移动技术的飞速发展,各种移动应用和服务已进入人们生活、娱乐与工作等方方面面。为方便用户选择,各种移动应用商店都提供了应用排行榜,比如“免费排行”,“收费排行”等。在排行榜上名列前茅的应用不仅会收获大量用户,往往也会获得丰厚的商业利润。因此,应用开发商都希望自己的应用能够排到榜单前面。一些厂商雇用商业公司,通过“机器人”或者“水军”来刷榜,即移动应用商店排名的恶意欺诈。11移动应用商店排名欺诈检测移动应用商店的排名欺诈引起了工业界的高度重视,苹果因此**了众多移动应用厂商。如何检测这些排名欺诈,具有很多挑战:刷榜行为并不是长时间的,而是在某些时间段实现。挖掘活跃周期移动应用数量众多且快速增长,需要设计自动的增量式方法实现移动排行具有高度的动态性,需要寻找刷榜行为证据121.HengshuZhu,HuiXiong,YongGe,EnhongChen,RankingFraudDetectionforMobileApps:AHolisticView,InProceedingsofthe22ndACMConferenceonInformationandKnowledgeManagement(CIKM2013),SanFrancisco,USA,2013,Accepted.移动应用商店排名欺诈检测解决框架:1,挖掘活跃周期问题转换为验证一个活跃周期是否可疑2,基于排名的欺诈证据提取3,基于评分的欺诈证据提取4,欺诈证据整合,实现欺诈检测13移动应用商店排名欺诈检测挖掘活跃周期(LeadingSession),实现刷榜的准确定位14挖掘活跃**挖掘活跃周期活跃**活跃周期移动应用商店排名欺诈检测提取基于排名的欺诈证据15一个活跃**内的应用排行可以分成三个阶段:上升阶段,维持阶段,下降阶段。正常应用和可疑应用在这三个阶段的特征上具有显著区别一个可疑应用一个正常应用移动应用商店排名欺诈检测基于排名的欺诈证据1:上升和下降阶段的速率16采用假设检验框架采用高斯假设估计来计算证据得分移动应用商店排名欺诈检测基于排名的欺诈证据2:维持阶段的持续时间和排名高低17移动应用商店排名欺诈检测基于排名的欺诈证据3:一个活跃周期内的活跃**数量18泊松假设估计移动应用商店排名欺诈检测基于评分的欺诈证据1:活跃期内的平均评分和总体评分差异19一个正常应用一个可疑应用移动应用商店排名欺诈检测基于评分的欺诈证据2:活跃期评分分布和历史分布的差异20移动应用商店排名欺诈检测欺诈证据整合211,线性证据整合,学习权值2,计算一个活跃周期在不同证据下的平均排名3,计算不同证据排名和平均排名的方差移动应用商店排名欺诈检测实验分析22内容提纲23背景介绍1移动应用商店排名欺诈检测2情境感知的移动推荐系统3基于扩展信息的移动应用分类4结束语5情境(Context)UnderstandUserHabitsforContext-awareService,becauseWearelivinginDifferentContextsContextiswhenpeople,Inbus…;Inoffice…;Inrestaurant…;Inplayingbasketball….Contextinformationhelpstounderstanduserhabits.情境日志情境日志由多个情境记录(contextrecord)组成。每个情境记录又由一个时间戳(timestamp)、该时间包含的情境信息、以及该时间的用户交互记录(UsageRecord)组成。每个时刻的情境信息由多个情境特征(contextualfeature)及其取值组成.用户交互记录是用来记录用户在特定情境下的行为操作,比如玩游戏,听音乐,看网页等等,代表了不同的内容偏好。从表中我们可以看到,许多交互记录是空的,这是因为用户并非时时刻刻都有操作行为。25TimetampsContextualFeaturesContextualFeature-ValuePairsPreference情境感知的移动推荐系统一个基于情境感知的移动推荐示例26中午12点就餐晚上9点玩游戏移动情境数据记录兴趣偏好挖掘工作日时间速度……基站标识不活动时间交互否9:30慢2932短无否9:45?2932长无……?????否11:45高2315短上网……?????否12:00慢2587短搜索推荐信息:前门大街全聚德?时间情境情境感知的移动推荐系统通过挖掘情境日志获取移动用户情境感知的兴趣偏好,用于构建移动推荐系统。比如Joy喜欢周末晚上在家里玩动作类手机游戏。271.HengshuZhu,EnhongChen,etal,MiningMobileUserPreferencesforPersonalizedContext-AwareRecommendation,InACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,toappear2.HengshuZhu,EnhongChen,etal.,MiningPersonalContext-AwarePreferencesforMobileUsers,InProceedingsofthe12thIEEEConferenceonDataMining(ICDM2012),Brussels,Belgium,2012情境感知的移动推荐系统面临的挑战:情境日志特征多,情境建模困难情境日志缺少显式的评分数据单个用户的情境日志非常稀疏,挖掘情境偏好困难28情境感知的移动推荐系统问题解决框架根据多个用户的情境记录,学习出一组共同情境偏好{z},单个用户的个性化情境偏好即可表征为在共同情境偏好下的概率分布根据不同的情境数据**性假设(情境特征**假设,情境特征条件依赖假设),提出了两种不同的共同情境偏好挖掘方法给定一个用户u,其在情境C下对于内容c的情境偏好可以用后验概率P(c|C,u)来估计29情境感知的移动推荐系统设多个用户的共同情境偏好为{z},则一个用户u在情境C下对于内容c的偏好可以表示为:30学习多个用户的共同情境偏好学习单个用户在共同偏好上的概率分布如何计算P(c,C|z)和P(z|u)?情境感知的移动推荐系统两种情境特征-偏好**性假设:假设1:不同情境特征对于用户兴趣偏好的影响是基于共同偏好条件**的。比如在挖掘共同兴趣偏好时,我们认为(地点:家)和(时间:晚上10点)这个两个情境特征对于偏好“游戏”的影响是**的。假设2:不同情境特征对于用户兴趣偏好的影响是相互依赖的。比如在挖掘共同兴趣偏好时,我们认为(地点:家)和(时间:晚上10点)这个两个情境特征的同时出现造成了对偏好“游戏”的影响。31情境感知的移动推荐系统基于假设1,我们可以得到我们将(c,p)称作一个情境偏好原子特征(AtomicContext-awarePreferenceFeature,ACP-Feature),其获取可以通过如下方法:32内容偏好:c情景特征-值对:p情境感知的移动推荐系统我们通过主题模型来学习P(c,p|z)和P(z|u)33增加情境特征先验概率情境感知的移动推荐系统基于假设2,我们首先挖掘频繁的情境偏好模式(behaviorpattern)。假设频繁情境为Cr,我们可以通过ConstraintbasedNon-negativeMatrixFactorization来学习相关概率P(c,Cr|z)和P(z|u)34情境感知的移动推荐系统35实验结果分析内容提纲36背景介绍1移动应用商店排名欺诈检测2情境感知的移动推荐系统3基于扩展信息的移动应用分类4结束语5基于扩展信息的移动应用分类随着智能移动设备的普及,大量移动应用(MobileApps)被开发出来。截止到2013年7月,苹果应用商店和谷歌安卓市场共有约200万款移动应用,其下载量超过1000亿次。如何管理这些移动应用程序,同时通过它们的使用记录来理解用户兴趣偏好成为一个难题。需要根据不同的需求设计不同的分类体系。应用数量众多,需要有效的自动化方法来分类。37移动应用AppTagUCWebBrowsingOviStoreDownloadingSafe360Security……应用分类表基于扩展信息的移动应用分类研究面临的挑战:移动应用没有足够的显式特征信息来构建分类器。唯一可用的特征即移动应用名称中所包含的文字。但是这些文字通常极为的有限,通常不超过3个单词,而且单词的重现频率很低。381.HengshuZhu,HuanhuanCao,EnhongChen,HuiXiong,JileiTian,MobileAppClassificationwithEnrichedContextualInformation,InIEEETransactionsonMobileComputing(TMC),2013,,toappear2.HengshuZhu,HuanhuanCao,EnhongChen,HuiXiong,JileiTian,ExploitingEnrichedContextualInformationforMobileAppClassification,InProceedingsofthe21stACMConferenceonInformationandKnowledgeManagement(CIKM2012),Page1617-1621,Hawaii,USA,2012.基于扩展信息的移动应用分类我们提出利用基于互联网搜索引擎和移动情境日志来构建“扩展信息”,用以训练移动应用分类器。39将移动应用名称输入搜索引擎,返回网页结果不同应用在不同情境下使用,比如“游戏”经常在“家里”“晚上”等情境下使用。基于扩展信息的移动应用分类我们提出的技术框架,核心问题在于如何从扩展信息中设计和提取分类特征。40基于扩展信息的移动应用分类基于互联网的文本特征提取:特征1:ExplicitFeedbackofVectorSpaceModels将每个返回的互联网页通过VSM映射到特定的应用类别,然后计算41基于扩展信息的移动应用分类基于互联网的文本特征提取:特征2:ImplicitFeedbackofSemanticTopics将每个返回的互联网页通过主题模型映射到特定的应用类别,然后计算42基于扩展信息的移动应用分类基于情境日志的情境特征提取:特征1:PseudoFee