1“拍照赚钱”的任务定价摘要“拍照赚钱”作为移动互联网下的一种自助式服务模式,用户在APP上领取拍照任务并执行,从而获得相应报酬。本文针对任务定价问题,用统计特性分析定价规律,得到距离价格比等模型,并进一步得到新项目的定价计划。针对问题一,探究任务定价规律和任务执行情况,采用描述性统计量对已分成完成任务和未完成任务这两类的数据进行分析,同时对分类后数据做显著性差异分析,得到定价低的任务对应的任务完成率也低。用SPSS软件绘制两类位置与标价的三维立体图,用Matlab软件绘制标价与位置范围图,最终定价规律按位置范围可分为四类:北纬约23°至23.08°,东经约113.1°至113.2°;北纬约23.1°至23.2°,东经约113.21°至113.5°;北纬约113.8°至114.1°,东经约22.5°至22.8°;北纬约22.8°至23.9°,东经约113.5°至113.8°。这四个范围分别对应佛山市、清远市、深圳市和东莞市。用二元Logistic回归模型得出任务未完成主要与位置有关,纬度越高,任务未完成可能性比完成可能性越大。此外,店铺拒访等原因也会造成任务未完成。针对问题二,考虑到任务定价与位置和执行情况有关,故采用聚类分析,按任务与领取该任务的会员间距离将任务位置主要分为四类,建立距离价格比模型(DPP模型),求得835个任务的具体定价;按任务完成率和定价之间关系,利用0-1整数线性规划,建立最小总定价模型(TRM模型),同样得到每一个任务的具体定价。最后得到原计划、按距离制定的计划和按完成率制定的计划三者对应的APP开发商需支付的最小总定价分别为36446元、60225元和33650元。最后,结合具体内容分析可得两个计划均比原计划合理。针对问题三,由于会员间会竞争同一打包分布的任务,则这些会员之间存在非合作博弈关系,用K-均值聚类得到135组新的打包分布后的任务,利用序贯算法改进问题二建立的DPP模型,得到打包任务定价模型(PTP模型)。135个任务集合所包含的任务数最多有21个,最少仅2个,故选择任务数为10个的第30个任务集作为PTP模型的建立模板,求得其作为新任务的定价为810元,不打包情况下该任务集合的总定价为815.72元,两者之间误差小于0.1%,说明PTP模型合理。针对问题四,由新项目任务的位置分布图可得,新项目任务主要分布在已结束项目中未完成任务所在区域。为使APP开发商可以用最少的成本(任务总定价)得到最多的商检和信息数据(最高的任务完成率),建立双优化定价模型(DOP模型)。用Matlab软件编程求解得任务完成率为80.1%,APP开发商应给出的最低总定价为75827元,同时得到2066个任务的具体定价。最后对该模型进行10次模拟仿真,每次模拟仿真所得值与实际值的误差都小于5%,说明该定价计划的实施效果很好。关键词:显著性差异分析;K-均值聚类;0-1整数规划;序贯算法;双优化2一、问题重述当前盛行一种基于移动互联网自助式劳务众包平台的赚钱方法——“拍照赚钱”。用户下载相应的APP并注册成为APP会员后,即可在APP上通过拍照获得标有具体定价的拍照任务,从而取得报酬。上述平台与传统市场调查方式相比,在为公司提供各类商务考察和信息搜索时,可大幅度减少调查成本。此外,该平台有效保证调查数据的真实性,缩短调查周期。故APP变成该平台运行关键,且APP的任务定价是其核心元素。若价格不合理,一些任务将被忽略,导致商品检查失败。附件一是一组已结束项目的任务数据,包括各项任务的位置、定价和完成情况(“0”为未完成,“1”为完成);附件二是会员信息数据,包括其位置、信誉值、根据其信誉给定预订任务限额及其开始时间,原则上信誉越高,会员越优先选择任务,配额越高(任务按照预订限额所占比例分配);附件三是一组新的项目任务检验数据,仅包含任务的位置信息。请根据以上信息解决下述问题:1.根据附件一所给的项目任务定价,探究其规律性,分析任务未完成原因。2.针对附件一的项目制定新的任务定价计划,并与原计划进行对比。3.多个任务可能由于位置较集中,在实际情况下会使得会员之间产生竞争。考虑将这些任务联合在一起打包发布时,该如何修改之前的定价模型,又会对最终的任务完成情况有何影响?4.针对附件三所给新项目建立任务定价计划,并对该计划的实施效果做出评价。二、问题分析针对问题一,探究项目任务定价规律,属于寻找数据统计特性问题,一般选择用SPSS软件对所给数据进行一系列具体分析来解决此类问题。首先,按照附件一中任务执行情况一栏将任务标价分为两类,得到完成任务和未完成任务所对应的两组任务标价。分别求解两组任务标价所对应的描述性统计量。利用M估计和K-S检验对两组任务标价分别做探索性分析,判断其是否服从正态分布。其次,由于问题一还需考虑任务完成情况,故需比较两类任务标价数据对任务完成情况有无显著性差异,则利用方差分析和独立样本T检验对分类后两组数据进行显著性差异分析。最后,通过对附件一中任务位置和任务标价进行对比分析,分别画出两类任务位置与标价的三维立体图来初步观察其关系,再进行聚类分析,得到任务位置与标价之间的具体对应几种分类关系。对于任务未完成的原因,执行情况取值只有0和1,故利用回归分析,建立任务位置与执行情况间的二元Logistic回归模型,判断任务位置是否会造成任务未完成,还可借此模型预测其他位置的任务执行情况。此外,查询一些具体的“拍照赚钱”APP,研究他们对完成任务的具体要求,得出附件一无法给出的其他造成任务未完成的原因。针对问题二,需制定新的任务定价计划,属于优化问题,解决该问题需找到每个任务的最优定价。由附件一可知任务标价与位置和执行情况都有关,故可按距离关系和任务完成率分别制定一组定价计划。按距离制定的计划,关键在于距离会员近的任务定价低些,而距离会员远的任务定价则按一定比例高些。由问题一得到定价按位置大致分为几类,将任务按这几类划分区域,分别算出各区域内每个任务的最优定价。按任务完成率制定的计划,关键在于新计划定价与任务执行情况之间的关系,可用0-1整数线性规划建立相应模型求解。最后,分别计算3在原计划和两组新的定价计划下,该平台一组项目需支付的总定价,比较其值大小。三者中总定价少且任务完成率高的计划为最优定价计划。针对问题三,只需考虑任务位置与定价之间的关系,故在问题二按距离关系所建立的定价计划的基础上做出改进即可。先将原来的835个任务按距离进行聚类分析,利用可打包任务间的距离范围确定聚类个数。对于仍是未打包的任务(单个任务)而言,定价不变;对于打包在一起的多个任务,可整体看成一个任务,聚类的中心即这个新任务的位置,即从问题二中的点与点之间距离变成点与集合之间的距离。题目中提到会员之间对任务有竞争关系,则此时的距离不再是任务与最近会员间的距离,此距离还与时间有关,可以基于序贯算法(优先级的先后次序)来改进定价模型。首先,对打包后的任务集合以会员能接受的最远距离为半径画圆,得到可能会竞争这个任务集合的会员集合。其次,每个会员都有其任务预定限额,若该任务集中任务个数超过某个会员的限额数,则该会员失去竞争力,从而缩小会员集合。每个会员的任务开始预定时间也不相同,挑选预定时间最早的会员得到进一步缩小的会员集。最后,在上述会员集中按问题二的定价模型,找到与该任务集距离最短的会员,则这个任务集就被这个会员所领取了。按上述算法思想来修改问题三种按距离关系建立的定价计划。另一方面,打包后会员可选择的总任务数减少,之前由于距离太远未被选择的任务可能会因此被没有抢到任务的会员选择,导致任务完成率增大;而打包被领取的任务的完成情况不受打包的影响。因此,整体任务完成率增大。针对问题四,首先用Matlab软件画出附件三中2066个任务的位置分布图,由此初步判断这些任务的可能执行情况。对于APP开发商而言,希望在给出最少总定价的同时满足最多的任务被会员领取,故问题四属于双目标优化问题,可用最优策略解决,建立双优化定价模型对新项目给出任务定价计划。对建立的模型进行模拟仿真,从而评价该计划的实施效果。三、基本假设1.假设一个任务只能由一个会员领取,即不能被不同会员重复领取。2.假设按一定周期发布一组新的项目任务。3.假设会员完全完成任务才能拿到标定的定价,否则得不到任何定价。4.假设不考虑任务的难易程度对任务定价的影响。5.假设任务与任务之间、任务与会员之间的距离都为直线距离。6.假设打包发布的同一任务集合中的每个任务的定价相同。7.假设不同项目的任务定价范围相同。四、符号说明符号说明P未完成概率p每单位距离应增加的价格比例d任务位置与领取该任务的会员之间的距离4,1,2,,835idi第i个任务与领取该任务的会员之间的最短距离,1,2,,835ibi已结束项目中第i个任务的定价,1,2,,835ixi已结束项目中第i个任务的执行情况z已结束项目的任务总定价*,1,2,,2066iyi新项目中第i个任务的定价*,1,2,,2066ixi新项目中第i个任务的执行情况y新项目的任务总定价cp新项目任务完成率五、模型的建立与求解5.1问题一的模型建立与求解5.1.1数据预处理附件一中罗列了一个已结束项目中835个任务的经度和纬度位置、任务标价以及任务的执行情况。在地图上找到具体任务位置主要分布在广东省的广州市、深圳市、佛山市、东莞市、惠州市和清远市,这些都是较发达城市,故“拍照赚钱”任务发布较多,所给的酬金也比其他地区高。按任务执行情况我们可以将这835个任务分为完成和未完成两类,其中完成的任务共522个,未完成任务共313个,分类后的数据见附录3.1。问题一要探究项目的任务定价规律,可由分类后的任务标价的数字特征入手,故需对相应的统计量进行分析处理。首先,描述性统计分析可得出最直观的数据规律。均值、中位数和总和可描述任务定价的数据集中趋势,方差、标准差、极差可描述定价的离散程度,而偏度和峰度则可用来描述完成任务和未完成任务的总体分布形态,从而直观的观察其是否服从正态分布。利用SPSS软件,我们得到两类任务标价所对应的各统计量结果(见表1),两者的频率直方图(见图1),以及两类任务标价频率分布表(见附录3.2)。表1已完成和未完成任务的各统计量值表N平均值标准平均值误差中位数标准偏差方差偏度峰度极差最小值最大值平均值95%置信区间下限值上限已完成52269.820.210968.833a4.818231.5182.320658567.5268.34未完成31367.9280.207166.282a3.6647131.9654.420658569.4170.23由表1可得,已完成的任务标价均值、中位数均高于未完成任务的,说明标价高的任务其完成率也相对较高。5图1完成和未完成任务的频率直方图由图1可看出两组数据均存在极端值,而M估计稳定性高,故用M估计值代替均值可得更精确的结果,表2为M估计量结果表。表2M估计量任务执行情况休伯M估计量aTukey双权b汉佩尔M估计量c安德鲁波d任务标价066.1965.8765.9365.87168.9168.7569.0268.75通过K-S检验得到常态性检验表(如表3所示)来检验两类任务标价的正态性,从中看出两类任务的显著性水平均为0.000,小于0.05,故认为两类任务的数据均不服从正态分布,不满足方差分析的基本假设[1],则不能用方差分析来比较两类任务标价数据对任务完成情况有无显著性差异。表3常态性检验表任务执行情况Kolmogorov-Smirnov(K)aShapiro-Wilk统计df显著性统计df显著性任务标价0.268313.000.737313.0001.161522.000.825522.0005.1.2任务定价规律探究附件一给出了每个任务所对应的位置、标价和执行情况,故可通过分析任务位置与标价的关系、任务执行情况与标价的关系来探究任务定价规律。首先,观察附件一中数据,发现不论是完成的任务还是未完成的任务,相同的标价下的任务位置都相聚较近,故用SPSS软件分别绘制出完成和未完成任