1基于多元线性回归与聚类分析的网络任务定价模型摘要随着互联网经济的高速发展,用户通过平台发布和接受任务的新型“雇佣劳务关系”正逐渐受到年轻人的青睐,而任务定价作为这种新型关系中最重要的一环,其合理性也就成了吸引双方的决定性因素,因此平台若能通过用户数据分析建立合理的定价模型向用户给出合理的推荐价格,势必能使其在强大竞争环境下站稳脚跟。本文根据所给数据及问题分别建立了四个对应模型:原始定价模型、修正定价模型、打包定价模型及预测定价模型。原始定价模型建立在对根据附件数据的分析上,分析发现任务定价主要与三个变量有关:供求距离iD、消偏信誉值iE及总预订任务限额iQ相关,据此建立多元线性回归模型进行拟合计算任务点的预期定价,结果得到定价函数:iW=iD622.2-019.0iE-iQ072.0+71.599用得到的预期价格与实际价格进行比较并对未完成任务进行K-means聚类分析将未完成原因分为三类:价格过低,无人员分布及地理位置相对偏僻。修正定价模型建立在根据不同原因对三类未完成任务进行定价改进的基础上。对于价格过低的任务,筛选只使用已完成任务数据进行多元拟合,以其得到的定价函数对其进行定价修正;对于无人员分布的任务,用同样无人员分布但已完成的离其距离最短的任务的定价作为其修正定价;对于地理位置偏僻的任务,引入常量地理位置因子C对其价格修正,其值为各任务实际价格与用第一类修正定价函数得到的预期定价的差值的均值,计算得出C=5.5。打包定价模型以每个任务点为中心,将半径1r范围内所有任务装入同一任务包,再根据任务序号剔除不同任务包内的重复任务,再用原始定价模型中的函数进行拟合,对该模型的评价采用与实际价格的05.1倍作为合理范围,计算合理任务的比例作为优劣度进行评价,发现其大于0.8,故认为具有可信度。预测定价模型同样采用多元线性模型,通过分析前三种模型的分析发现采用打包定价模型的定价函数最优,用其预测新任务价格,预测结果的评价用离其最近的已结束任务价格仿照打包定价模型进行优劣度分析,发现具有可信度。关键词:任务定价多元线性回归K-means聚类任务点评价2一、问题背景与重述“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。题目中给出了一个已结束项目的任务数据,包含了每个任务的位置、定价和完成情况(“1”表示完成,“0”表示未完成);会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发);一个新的检查项目任务数据,只有任务的位置信息。让我们完成下面的问题:1.研究项目的任务定价规律,分析任务未完成的原因。2.为项目设计新的任务定价方案,并和原方案进行比较。3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?4.对新项目给出你的任务定价方案,并评价该方案的实施效果。二、问题分析1.问题一分析针对问题一,题目要求我们研究项目的定价规律和分析任务未完成的原因。对于前面一个问题,首先我们通过分析,把会员看做一种商品,又根据经济学知识可知商品的价格主要受市场的供给需求关系影响,所以我们推断项目的定价规律由拍照任务的供给和需求决定。我们把会员接的任务数当做是供给方,拍照任务数当做需求方,当拍照任务较少而会员较多时,会出现供过于求,则价格较低,制定的价格会较低;当拍照任务较多而会员较少时,会出现3供不应求,则价格较高,制定的价格会较高。接着,我们结合日常生活的经验,选取变量作为任务定价的影响因素。我们推断一个任务点旁边的的会员数量和会员离此的距离长短会都会影响任务的定价,因此我们取一个任务点方圆1km的会员与其的距离求和除以1kn(1k为特征值)称为供求距离,作为一个变量。然后,我们分析得到一个任务点周围会员的信誉值也会影响任务的定价。类似于供求距离的由来,我们把一个任务点周围方圆1km的会员信誉值依次搜索出来求和除以2kn(2k为特征值)称为消偏信誉值作为第二个变量。之后,我们取一个任务点方圆1km的会员预定任务限额求和称为总任务限额为第三个变量,我们认为会员任务限额也会影响市场的供求关系。我们用MATLAB计算出三个变量的数据,然后结合任务定价的数据进行函数拟合找出项目的定价规律。对于后面的问题,分析未完成任务的原因。我们先筛选出未完成任务的数据,找出它们的经纬度位置、定价和其周围的会员信息,然后对它们进行分析,找出它们失败的原因。2.问题二分析针对问题二,设计新的定价方案并和原方案比较。我们从问题一得出的未完成原因出发设计一套新的方案使得定价更合理。问题一得出的未完成原因分三种情况,周围有会员但定价过低、定价不低但有效识别范围内没有会员和定价不低且有效识别内有会员但受地理位置影响而任务没有被完成。我们针对这三种原因分别制定不同的定价方案以此来合理定价未完成的任务。在第一种原因下,我们认为可以用被完成的任务点的数据进行回归分析,拟合出一条直线并写出表达式并将其作为新的定价方案;在第二种原因下,这些未完成的任务点周围是没有会员的,因此没有可利用的数据进行分析并完成定价,然后我们联想到那些周围没有会员却完成任务的点,并进行比对,最后我们将离未完成任务最近的没有会员却完成的任务点的定价作为它们新的定价;在第三种原因下,我们将定价结合了日常实际出现的情况,我们要想办法合理提高定价来消除任务点位置偏僻带来的影响,我们认为应该在第一问得出的任务定价函数上加一个常数,而这个常数由任务点地理位置带来的影响决定。43.问题三分析针对问题三,考虑到实际情况出现打包的方案,让我们修改前面的定价模型。首先,我们认为任务打包分布可以避免会员过多进行恶性竞争的现象,而且打包可以提高任务完成的效率。然后我们队任务点的分布进行分析寻找打包的方法,我们认为把以一个任务点为圆心,r为半径的一个圆范围内的所有任务看作是一个任务包,已经被归纳入任务包的不进入下一次搜索。接着我们队任务包进行定价,从原始任务点出发对任务包定价,一个任务包里面的任务定价相同。最后,我们要分析打包对任务完成情况的影响,我们队附件一中的未完成数据进行重新定价然后与修正预期价格模型得到的定价进行比对,进行优劣度检验,如果优劣度0.8,则认为打包对任务完成情况具有积极意义。4.问题四分析问题四考虑对新任务定价,首先在问题一、二、三所建立的定价模型中挑选以对新任务进行预测定价,再对预测结果进行评价。评价标准采用离新任务最近的已结束任务点的已知定价作为参考中心价格nP,再取5%的误差定下合理定价范围,用预测结果进行比较,计算优劣度,若其大于0.8则认为该模型定价具有一定的合理性。反之则认为模型定价效果相当较差。三、问题假设1.假设任务是否完成与任务难度无关,只取决于是否有会员前往完成。2.假设进行任务不存在失败的情况,也就是说只要有会员前往完成任务就被能完成。3.假设任务点之间的距离、任务点与会员的距离都是绝对距离,不考虑街道等因素对距离带来的影响。4.假设会员对任务点的选择只考虑任务定价、距离的大小和地理位置是否方便,会员对任务的选择都不带有主观厌恶与喜好情感。5.假设所以会员都是理性人。6.假设数据都是来自于实际生活中完整准确的数据。5四、符号说明符号符号说明iD第i个任务点的供求距离ijd第i个任务点与其周围第j个会员的距离iE第i个任务点的削偏信誉值ije第i个任务点周围第j个会员的信誉值iQ第i个任务点的总任务限额ijq第i个任务点周围第j个会员的任务限额iW第i个任务点的预期定价iW第i个任务点的修正预期定价iP第i个任务的真实定价mnd第个任务点的距离个任务点与第nmC地理位置因子iP重新定价五、模型的建立与求解5.1问题一定价模型的建立与求解5.1.1原始定价模型的建立我们把会员看作是一件商品,任务的定价看作是商品的价格,商品的价格受市场的供求关系影响,即任务的定价受市场上会员的供求关系影响,按照经济学原理任务的定价为会员供给等于需求时的价格。对于这个问题,我们从市场的供给与需求角度出发,建立一个新的定价模型。我们选取了供求距离、消偏信誉值和消偏任务限额三个变量作为任务定价的因素。(1)供求距离的定义与求值我们把任务点方圆1km以内的会员与其的距离ijd求和除以1kn定义为任务供求距离iD。计算公式如下:1/1knjijindD(5-1)iD为第i个任务点的供求距离;ijd为第i个任务点周围kmr内的第j个会员6与任务点的距离模型中的距离都为绝对距离,如果考虑具体街道的话距离很难计算;1k为特征值。由于附件一、二给出的任务及会员位置为经纬度分布,故在计算距离时需要用经纬度转化求距离公式[1],设A点(纬度1,经度1),B点(纬度2,经度2),两点的距离为:12d5.02122212212/cos--199.111(5-2)平均距离一样但会员分布不同这样的对于任务定价有不同影响,如果供求距离单纯是一个平均数,那么不论会员分布如何只要平均距离是一样的会员信息对任务定价的影响是相同的,为消除这种情况对模型的影响,我们引入特征值,把求和的值除以1kn。供求距离的公式将会员信息对任务定价的影响考虑进去,是从供给侧出发,会员与任务点的距离和任务点周围的会员数都会对供求距离的大小产生影响。(2)消偏信誉值的定义与求值我们把任务点方圆1km以内的会员信誉值加总求和除以2kn定义为消偏信誉值iE。计算公式如下:2/1knjijineE(5-3)iE为第i个任务点的的消偏信誉值,ije为第i个任务点周围的第j个会员的信誉值,2k为特征值。我们判断会员的信誉值会影响会员的供求关系而影响价格,并且我们认为会员的信誉值是通过影响会员预定任务开始时间进而影响市场的供给关系从而影响价格。我们利用SPSS对会员信誉值与会员预定任务开始时间进行相关回归分析,发现它们存在显著负相关关系,也就是说信誉值越高的会员通常他们开始预定任务的时间越早。回归分析结果如表1-1所示。表1-1会员信誉值与预定任务开始时间回归分析结果平方和自由度平均值平方F显著性标准化系数回归0.04110.04192.29506-102-残差0.82818750总计0.86818767当显著值5.0P则认为存在显著性相关,从结果0P,可以看出会员信誉值与预定任务时间存在显著性负相关。(3)总任务限额的定义与求值我们把任务点方圆1km以内的会员任务限额加总求和定义为总任务限额iQ。计算公式如下:njijiqQ1(5-4)iQ为第i个任务点的的总任务限额,ijq为第i个任务点周围的第j个会员的任务限额。我们推断会员任务限额会影响市场的供求关系进而影响任务定价。(4)多元线性回归模型的建立根据上面的影响因素iD、iE与iQ和题目给出的项目各个任务的预期定价iW,建立多元线性回归模型,利用这些得到的数据拟合函数。多元线性回归模型如下所示:iW=iD1+2iE+iQ3+(5-5)321、、为回归系数,为常数。我们利用SPSS求出回归系数和常数的,回归系数和常数的值要使得函数值与真实值尽量全部一样,也就是要使得尽可能多的点落在直线上,而不在直线上的点均匀分布在两侧。我们使用2iiWP来衡量模型的偏差,也就是说,我们回归模型的结果要尽量将2iiWP控制的足够小。5.