1“拍照赚钱”的任务定价模型摘要本题要求分析“拍照赚钱”任务的服务模式,研究其定价规律,并设计新的任务定价方案,结合实际情况,修改定价模型,最终对新项目设计任务定价方案,并评价方案的实施效果。求解的具体流程如下:针对问题一:为了研究项目的定价规律,分析任务未完成的原因,利用附件一的信息,在地图上定位所有坐标的位置,发现任务集中在广东、东莞、佛山、深圳四市,分别标明每个城市的成功任务和失败任务。以深圳为例,对深圳市任务进行聚类分析,结果分成5类,由相应任务的定价可以得出,人口密集处定价较低,人口稀少处定价较高的定价规律。将附件二的位置信息同理在地图上定位,分别计算任务周围的会员数,分析其与定价的联系。针对问题二:由问题一结果可知,任务定价与任务周围人数和任务周围人口密度等因素有关。利用网络爬虫爬取广州、东莞、佛山、深圳四市医院,学校,小区,超市四种人口密度较大场所的经纬度,统计成功任务周围十公里人口密集场所。用RBF神经网络模型,从而确定新的定价方案。将此方案与原方案进行比较,得出两种定价方案的差异。针对问题三:为了解决用户争相选择位置集中任务等问题,可将多个任务联合打包,以便用户更好得执行任务。利用问题二中RBF神经网络模型求出新的定价方案下的任务定价;同问题一,求任意两个任务之间的距离。当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。针对问题四:为了对新项目设计定价方案,并评价方案的实施效果,将新项目中任务的位置定位于地图上,可以发现任务集中分布于两个区域,且两个区域距离较远,可认为互不影响。结合前面问题的分析,可知任务定价与区域的经济发展情况和用户到任务的距离有关。对用户而言,用户将优先选择距离较近且定价较高的任务,因此,可以使用灰度关联分析的方法,建立不同任务对会员的吸引力,从而对定价方案做出评价。关键词:聚类分析、RBF神经、灰色关联分析法、网络爬虫2一、问题重述“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。APP是该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。1.研究附件一中项目的任务定价规律,分析任务未完成的原因。2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。二、模型假设1.会员对任务没有主观偏好,不会因为自身原因不完成任务;2.各个任务难度相等,不影响会员的选择;3.假设会员与任务间的距离都是直线距离,不受道路、河流等的影响;4.问题中所有数据都真实有效。三、符号说明符号含义地球半径两地之间的球面距离,两地的纬度两地的经度差P打包后总价四、问题分析4.1问题一分析问题一要求研究附件一中项目的定价规律,并分析任务未完成的原因。首先应在地图中找出附件一中所有任务的位置,确定任务的分布规律,同时将附件二中会员的位置定位于地图。观察出这些数据集中分布在广东、东莞、佛山、深圳四个城市。以深圳市为例,对深圳的任务进行聚类分析,分析聚类结果,从而得出项目的定价规律。分别计3算每个任务与所有会员之间的距离,结合每个任务周围十公里的会员数与任务的定价,确定任务未完成的原因。4.2问题二分析问题一可明显看出任务价格与任务周围人数和任务所在地区人口密度等有关。利用网络爬虫爬取广州等四市医院、学校、小区、超市等人口密度大的场所,统计成功任务方圆十公里内的人口密度大的场所个数。使用RBF神经网络分析,用所获得的数据训练神经网络,从而确定新的任务定价方案。将新的任务定价方案与附件一中的任务定价做出比较,说明两种定价方案的不同情况。4.3问题三分析问题三要求将任务打包发布并设计新的定价方案,以解决用户争相选择等问题。利用问题二中RBF神经网络模型求出新的定价方案下的任务的定价;利用问题一中两点经纬度坐标求出两点距离的计算方法求出每个任务与其他任务之间的距离,当两个任务之间的距离小于一定值时,便可将这两个任务种做打包处理。对于打包的任务,可将每个任务的定价结合附近会员的信息求出最终定价;对于未打包的任务,任务定价不变。4.4问题四分析问题四要求对一个新项目设计定价方案,并评价该方案的实施效果,将附件三中的任务的地理位置定位于地图上,可以发现任务集中分布于两个区域。通过前面的问题分析可知,任务定价与地区经济发展水平和会员距离有关。对会员而言,可以从任务的难易程度和会员到任务的距离两个方面判断会员对任务的偏好,从而使用灰度关联分析对的方法,建立不同任务对会员吸引力的模型,便可以对这种方案的实施效果做出分析。五、模型建立与求解5.1问题一模型利用地图定位将附件一中经度纬度定位到地图中,发现这些数据集中分布在广东,东莞,佛山和深圳四个城市中。分别分析四个城市的价格规律,以深圳市为例。考虑到城市内部存在区的划分,因此对数据进行聚类分析,猜测聚类结果呈区域块状分布,结果同样验证猜测。这是价格的分布规律,其内部原因是受每个任务周围会员数量的影响。分别求出任务方圆每十公里会员人数,分析任务周围的会员数与任务定价的关系,从而确定任务未完成的原因。5.1.1模型建立此题采用Q型聚类法建立模型并求解。Step1.距离4表5.1.1数据观测值样本变量12n设𝑖𝑘为第i个样本的第k个指标,数据观测值如上表所示。在表中,每个样本有p个变量,故每个样本可以看作中的一个点,n个样本就是中的n个点。在中需要定义某种距离,第i个样本与第j个样本之间的距离记为𝑖,在聚类过程中距离较近的点倾向于归为一类,距离较远的点应属于不同类。所定义的距离满足如下4个条件:(1)𝑖,对一切;(2)𝑖=,当且仅当第i个样本与第j个样本的各个变量值相等;(3)𝑖=𝑖,对一切;(4)𝑖𝑖𝑘𝑘,对一切的。最常用的几种距离:(1)Minkowski(闵可夫斯基)距离𝑖(𝑞)=[∑(𝑖𝑘−𝑘)𝑞𝑘=]1𝑞,q0对于q=1时,对应的是绝对值距离(2)绝对值距离𝑖(1)=∑|(𝑖𝑘−𝑘)|𝑘=对于q=2时,对应的是Euclid距离(3)Euclid(欧几里得)距离𝑖(2)=√∑(𝑖𝑘−𝑘)𝑘=Step2.数据标准化标准化变换:𝑖∗=𝑥𝑖𝑗−𝑥̅𝑗𝑠𝑗=12𝑛;=12𝑝其中,均值:̅=1𝑛∑𝑘𝑘=5方差:𝑠=√1𝑛−1∑(𝑘−̅)𝑘=变换后的数据均值为0,标准差为1,而且标准化后的数据与变量的量纲无关。Step3.系统聚类系统聚类法(hierarchicalclusteringmethod)是聚类分析诸多方法中用的最多的一种,其基本思想是:开始将n个样本各自为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直到所有样本合并为一类。以下用𝑖表示第i个样本与第j个样本的距离,𝐺,𝐺,…表示类,𝐷𝐾𝐿表示𝐺𝐾与𝐺𝐿的距离。下面所介绍的系统聚类法中,所有的方法开始时每个样本自成一类,类与类之间的距离与样本之间的距离相同,即𝐷𝐾𝐿=𝐾𝐿,所以最初的距离矩阵全部相同,记为𝐷(0)=(𝑖)。常用的系统聚类法:(1)重心法类与类之间的距离定义为它们重心(均值)之间的Euclid距离。设𝐺𝐾与𝐺𝐿的重心分别为̅𝐾和̅𝐿,则𝐺𝐾和𝐺𝐿之间的平方距离为:𝐷𝐾𝐿=𝑥̅𝐾𝑥̅𝐿=(̅𝐾−̅𝐿)𝑇(̅𝐾−̅𝐿)这种系统聚类方法称为重心法(centroidhierarchicalmethod)。它的递推公式为:𝐷𝑀𝐽=𝑛𝐾𝑛𝑀𝐷𝐾𝐽𝑛𝐿𝑛𝑀𝐷𝐿𝐽−𝑛𝐾𝑛𝐿𝑛𝑀𝐷𝐾𝐿重心法在处理异常值方面比其它系统聚类法更稳健,但是其他方面却不如离差平方和法的效果好。(2)离差平方和法(Ward方法)离差平方和法基于方差分析的思想,如果分类分得正确,则同类样本之间的离差平方和应当较小,不同类样本之间的离差平方和应当较大。设类𝐺𝐾与𝐺𝐿合并成新的类𝐺𝑀,则𝐺𝐾,𝐺𝐿,𝐺𝑀的离差平方和分别为:𝑊𝐾=∑((𝑖)−̅𝐾)𝑇((𝑖)−̅𝐾)𝑖∈𝐺𝐾𝑊𝐿=∑((𝑖)−̅𝐿)𝑇((𝑖)−̅𝐿)𝑖∈𝐺𝐿𝑊𝑀=∑((𝑖)−̅𝑀)𝑇((𝑖)−̅𝑀)𝑖∈𝐺𝑀6其中̅𝐾,̅𝐿和̅𝑀分别是𝐺𝐾,𝐺𝐿和𝐺𝑀的重心。所以𝑊𝐾,𝑊𝐿和𝑊𝑀反应各自类内样本的分散程度。如果𝐺𝐾和𝐺𝐿这两类相距较近,则合并后所增加的离差平方和𝑊𝑀−𝑊𝐾−𝑊𝐿应较小;否则,应较大。于是定义𝐺𝐾和𝐺𝐿之间的平方距离为:𝐷𝐾𝐿=𝑊𝑀−𝑊𝐾−𝑊𝐿这种系统聚类法称为离差平方和法或Ward方法(Ward’sminimumvariancemethod)。它的递推公式为:𝐷𝑀𝐽=𝑛𝐽𝑛𝐾𝑛𝐽𝑛𝑀𝐷𝐾𝐽𝑛𝐽𝑛𝐿𝑛𝐽𝑛𝑀𝐷𝐿𝐽−𝑛𝐽𝑛𝐽𝑛𝑀𝐷𝐾𝐿𝐺𝐾和𝐺𝐿之间的平方距离也可以写成𝐷𝐾𝐿=𝑛𝐾𝑛𝐿𝑛𝑀(̅𝐾−̅𝐿)𝑇(̅𝐾−̅𝐿)由上述分析可见,这个距离与重心法给出的距离只差一个常数倍。重心法的类间距与两样本的样本数无关,而离差平方和法的类间距与两类的样本数有关。两个大类倾向于有较大的距离,因而不易合并,这更符合对聚类的实际要求。离差平方和法在很多场合下优于重心法,是一种较好的系统聚类法,但它对异常值很敏感。Step4.已知两地经纬度求两地距离和分别是两地的纬度,北纬记为正;是两地的经度差,是地球半径。忽略各地海拔高度差异,认为地球是理想的球面。设L是两地的距离(地球的一条弦长),l是两地的球面距离(沿地球表面的弧长)。则:=√(𝑠𝑛𝜃−𝑠𝑛𝛼)(𝑐𝑜𝑠𝜃−𝑐𝑜𝑠𝛼𝑐𝑜𝑠𝛽)(𝑐𝑜𝑠𝛼𝑠𝑛𝛽)𝐿=𝑟可求得:=2𝑟𝑠𝑛−2分别计算出以每个任务位置为中心,半径为十公里的区域(即为方圆每十公里)内会员的人数与相应的任务定价,通过成功任务和失败任务每十公里内的会员人数比较即可得出任务失败的原因。5.1.2模型求解Step1.基本数据处理清洗数据,对于有明显错误的数据给予改正,例如将附件二中的“113.1314823.031824”改为“23.031824113.13148”。对于附件一和附件二中的任务与会员坐标,使用XGeocoding解析出每个坐标所对应的地理位置,得出任务与会员集中分布于广东,东莞,佛山和深圳,则可删除极少的处于其他市的任务与会员,得到模型中使用的有效数据。表5.1.2城市中的任务数与会员数城市任务数量会员数7广州市322665深圳市161629佛山市173216东莞市179351Step2.确定定价规律(以深圳市为例)利用BDP在线数据分析软件将任务信息在地图上标出,将深圳市中的任务聚类分析,聚类后分成了五类1,2,3,4和5。其中每一类任务在地图上的分布如下图:图5.1.1深圳市任务分类图表5.1.3每一类中个数和定价的均值聚类的类别个数定价均值13567.6857124566.4777831268.546266.088715776.85714显然,这很符合实际,人口密集区任务定价偏低,如类别4所在区域为人口密集区,人口密度较小,相应任务定价较低;偏远地区定价高,而且明显高过其他类别,如类别5所