1“拍照赚钱”模式下的劳务众包任务定价模型摘要随着互联网的飞速发展,基于移动互联网的劳务众包模式受到越来越多公司的关注。相比于传统的外包方式,劳务众包具有很多优点,如:能够为公司节省市场调查时间、资金成本等。然而,定价不合理不仅不能给公司带来效益,反而会让公司利益受损。本文基于“拍照赚钱”服务模式运用聚类方法和道格拉斯生产函数给出劳务众包的任务定价模型。对于问题一,为了得到任务的定价规律,本文先通过地图整体分析了任务和会员的位置,提出了距离、任务密度和会员密度3个因素可能影响到定价。通过相关性和因果性分析,本文证实了这3个因素确实影响到定价。针对任务未完成的情况,本文通过定性分析,提出信誉度低、定价低、地理位置差是任务未完成的原因。对于问题二,在问题一3个因素的基础上将信誉度和任务完成率也作为影响定价的因素,并定量构建关于定价的柯布-道格拉斯生产函数。根据由生产函数转化而来的多元线性回归模型对5个因素进行显著性检验,证明5个因素确实都影响到价格。再以价格为自变量,完成率为因变量,进行线性回归分析,结果显著,由此求出新方案下的任务完成率达72.9%,高于原方案的62.5%。对于问题三,为提高任务完成率,本文先剔除部分信誉度低的会员。考虑到要将任务打包发布,故对任务进行带约束的Kmeans聚类。聚类后,聚类中心代替了原有的任务点,故距离等5因素需重新定义,建立新的生产函数。再基于问题2中的方法,求出任务完成率为82%,较问题二中结果更高。对于问题四,考虑到新项目中任务量较为庞大且有多个任务位置较集中,故对任务进行Kmeans聚类。求出各个任务包和各类聚类中心后对相关数据进行分析,得出每个任务包的预测定价。基于问题三中的方法,即可求出任务完成率为92.7%,说明定价方案非常合理。关键词:劳务众包;约束聚类;生产函数;多元线性回归;因果分析2一、问题的提出1.1问题的背景传统的外包方式是指以合同的形式将任务交给指定的工作人员或机构进行完成,且外包的业务主要是一些借助计算机能完成的任务。目前的众包是一种直接将任务发布在互联网或者APP上,用户可以通过自助的方式来完成任务、获取酬金,如何对一个任务赋予合适的标价会影响选择任务的人数以及最终任务的完成质量。Mason等人通过研究发现任务价格的过高和过低都会对任务的完成带来一定影响。如果价格过高可以吸引更多的用户来做任务,但是不会提高任务的完成质量;另外,任务价格过高容易引来一些欺诈性用户来做任务,导致任务结果质量偏低。而价格过低则不能吸引用户来做任务,使得任务很难被及时完成[3],因此如何对任务定价将影响着任务是否被用户选择以及任务完成的质量。1.2问题的重述“拍照赚钱”是当前的一种自助式服务模式,其流程是:用户下载APP→注册APP→从APP上领取任务→完成任务赚钱酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供了各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期,APP的任务定价是该平台APP运营的核心因素。如果定价不合理,将无人问津或者任务的结果质量不高,导致商品检查失败。附件一是一个包含了任务位置、定价和完成情况的已结束项目;附件二给出了会员的位置、信誉值以及基于信誉值的开始预订时间和预订限额(原则上信誉值越高,预定时间越早、配额越大,配额根据预定限额所占比例进行配发);附件三是一个新的任务数据,只有任务位置。建立模型解决一下问题:(1)研究附件一的定价规律,分析任务未完成的原因;(2)根据问题一,为附件一建立新的方案,并与原方案进行比较;(3)多个任务可能因为位置比较集中,导致用户争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?(4)对附件三中的新项目给出任务定价方案,并评价该方案的实施效果。3二、问题的分析影响定价的因素有很多方面,发现这些因素并将其与定价进行合理定量的分析是本文的主要方向。考虑附件一给出已结束项目的任务数据,可以定性或定量的分析影响因素与最终定价的关系。对于附件二所给出的会员信息数据,其包括会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,有可能从中发现影响定价的因素,因此在定性分析影响因素时需考虑附件二中的数据。为了最后得到一个定价方案,将建立四个模型,具体过程如下图所示:问题的总分析问题一问题二问题三问题四选取价格的影响因素对因素进行相关性分析和因果性分析找出定价规律通过定性分析和定量信息融合找出任务未完成的原因加入任务完成度和会员信誉度两个影响因素构建柯布-道格拉斯生产函数模型构建基于生产函数的多元线性回归模型数据预处理:剔除信誉度低的会员利用带约束的K-means聚类算法将任务聚类建立新的定价模型对任务点进行聚类根据模型Ⅲ求得任务的定价根据任务的完成率来对结果进行评价对模型Ⅲ的应用与评价模型Ⅲ:带约束的聚类分析模型模型Ⅱ:基于柯布-道格拉斯函数的多元线性回归模型模型Ⅰ:相关性检验模型图1问题的总分析本文需要解决以下的问题:首先,如何选取影响价格的因素,并且对这些因素做出定性的分析,判断哪些因素影响价格以及哪些因素对价格不影响或影响很小。考虑多种因素,采用相关性检验模型,检验影响任务价格的因素有哪些,找出定价规律。此外,需结合上述因素和其它可能因素寻找任务未完成的原因。其次,如何构建有关设计新任务定价方案的数学模型,结合问题一分析出的影响价格的因素,考虑任务完成率及任务完成难度,从各因素所求出的数据定量的分析如何给任务制作新的定价方案。且需分析新任务定价方案的完成率和成本,与原方案进行对比。4然后,结合对任务打包需满足的“约束条件”,利用Matlab的Kmeans函数对所有的任务进行聚类分析得到200类,并将聚类中心定义为“任务中心”。另外,在此模型中需要重新定义一些因素,再根据问题二所构建的数学模型建立新的定价模型。最后,将上述的模型进行综合并将其应用到附件三所给的数据中,给出任务定价并依据任务的完成率来对模型进行评价三、模型的假设1.假设题目提供所有数据来源真实、可靠;2.假设所有的会员都是“理性人”,不会做“赔本”交易;3.假设所有会员都已经过实名认证,可以正常接受任务;4.假设任务设置的地点不是国家禁止进入的地区;5.假设任务的标价不是根据主观因素而随意决定的;6.假设不在任务区的会员的信息不参与定价原因的分析;四、名词解释与符号说明符号/名词解释说明dis距任务最短的三个会员距离123,,ddd的平均值tsk任务周围10公里以内的任务数t与任务总数T之比meb任务周围32公里以内的会员数m与会员总数M之比fns任务的完成率,即完成的任务数占任务总数的比例crd会员信誉度的平均值i生产函数中各影响因素所占的权重prc任务的标价包平均信誉值每个任务包中所有用户信誉的均值包平均完成率每个任务包中所有用户完成率的均值包平均任务密度每个包中所有任务数与总任务数比值5包平均会员密度每个包中所有的会员数与总会员数比值最小距离每个聚类中心到最近的三个聚类中心距离的均值聚类中心完成率每个聚类中心周围100公里内的所有包平均完成率均值平均信誉值每个聚类中心周围100公里内的所有包平均信誉值均值聚类中心的任务密度每个聚类中心周围100公里内的所有包平均任务密度均值聚类中心的会员密度每个聚类中心周围100公里内的所有包平均会员密度均值五、模型建立和求解5.1任务定价规律的定性分析模型为了分析任务的定价规律,本文首先从整体上将会员、任务、已/未完成任务的信息进行分析,得到总体上的一个认知。由于影响定价的因素有很多,如:任务密集度、任务点周围的会员密集度、会员距任务点的最短距离等,所以必须先对这些因素与定价进行相关性分析,然后根据结果才能判定其是否对定价有影响。然后,本文将考虑任务未完成的情况提出定价规律中所忽略的因素。5.1.1对会员与任务位置的整体分析将各任务和会员的位置绘制在中国地图上,得到如图2的分布总体图。根据附件1和附件2所提供数据,将任务点、会员店、以及任务点的完成情况分别用不同颜色的点标注在地图上,很直观地反映出会员与任务的位置信息。图2总体图中国地图(单位:m)黄色:任务点蓝色:会员点紫红色:任务完成点红色:任务未完成点6图3为总体图的放大图,可以清晰地观察到会员位置、任务点的完成情况及其分布规律。通过查阅具体地图可以发现不同地区任务完成度有较明显的差异,此图为后续研究任务未完成的原因提供了有用的资料。图3放大图5.1.2相关性检验模型的建立与分析相关性分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。通过观察与计算,本文找到了3个影响定价的因素:距离、任务密度、会员密度,并在表1中给出了各个因素的计算公式及含义。表1:三个影响因素的公式及含义影响因素公式含义距离1233ddddis距任务最短的三个会员距离123,,ddd的平均值任务密度ttskT任务周围10公里以内的任务数t与任务总数T之比会员密度mmebM任务周围32公里以内的会员数m与会员总数M之比首先,第一个影响定价的因素就是距离,因为对会员来说距离会产生成本,所以定价必须高于距离产生的成本才会有会员愿意来完成任务,而随着距离的增7大,会员所要求的报酬也就会越多。其次,任务密度也会影响定价,从理论角度分析,一个地区的任务数越多,会员获得任务就越容易,所以,任务的定价也就会越低。最后,还存在这样的情况,如果一个地区任务少,会员多则会出现会员为做任务而竞争的现象,企业可借此降低定价,增大获利,所以,会员密度应该也是影响定价的因素。因此,需分别将距离、任务密度、会员密度三个因素与任务标价做相关性检验,从而判断这些因素是否确实对任务的标价产生影响。经过SPSS软件进行相关性检验得定价与各因素之间相关性检验结果如表2。证明任务的定价确实与这三个因素呈显著相关,经过相关性检验也证实了本文的猜想。表2:定价与各因素之间相关性检验表prcdistskmebprcPearson相关性1.299**-.442**-.297**显著性(双侧).000.000.000disPearson相关性.299**1-.320**-.287**显著性(双侧).000.000.000tskPearson相关性-.442**-.320**1.747**显著性(双侧).000.000.000mebPearson相关性-.297**-.287**.747**1显著性(双侧).000.000.000*.在0.05水平(双侧)上显著相关。**.在0.01水平(双侧)上显著相关。5.1.3因果性分析相关性分析只能证明定价和距离、任务密度、会员密度三者之间具有相关关系,但定价和3个因素何为因,何为果还无法确定,所以,本文在相关性分析的基础上,利用Eviews软件进一步进行因果性分析。因果性分析结果如表3:表3:因果性分析结果格兰杰因果性F-StatisticProb.结论X1doesnotGrangerCauseY35.92693.E-09拒绝X2doesnotGrangerCauseY49.37424.E-12拒绝X3doesnotGrangerCauseY42.38841.E-10拒绝8所以,经过因果性分析可得出结论,距离、任务密度、会员密度均为影响定价的原因。5.1.3任务未完成的原因分析任务未完成的原因有多方面,首先考虑任务的周边用户的信誉度,然后再考虑任务的定价,最后考虑任务所处的地理位置等因素。本文将基于以上几个方面来分析任务未完成与这些因素的关系:(1)信誉度对任务完成率的影响通过观察与计算,本文发现任务周边的会员信誉度和任务所在区域类型同样影响着任务的完成程度。研究信誉度对任务完成率影响的具体分析过程如图4:筛选出未完成的任务点对未完成的任务点进行K-means聚类得出结论将所求平均值与所有会员信誉度平均值进行比较计算各范围内会员信誉度的平均值选取