1基于“拍照赚钱”的任务定价探究定价规律与定价模型摘要本文就劳务众包平台的任务定价问题进行了定性研究和定量分析。利用SPSS、MATLAB、GPSspgXGeocoding等软件进行数据处理与分析,并建立数学模型。使用主层次聚类分析法、多元非线性回归分析法、多维Logistic回归分析法、插值与拟合方法、双边效用最大化方法,分别建立了非线性回归分析模型、效用模型、利润分配模型、Logistic模型,分别得出:附件一中项目的任务定价规律;附件一中的任务未完成的原因;附件一中项目的更加全面的任务定价方案;“打包”条件下的合理的任务定价模型;附件三中新项目的任务定价方案,并给出方案实施效果的评价。针对问题一,首先,提取处理后的样本数据,利用MATLAB对数据进行“均值化”处理;其次,使用主成分聚类分析法寻找指标间关系。利用SPSS计算出指标的相关系数矩阵及其特征值、特征向量,从而确定主成分个数;然后,基于聚类分析产生的指标,做基于整体最小二乘的曲面拟合,得出四组拟合曲线,再利用SPSS做数据的可靠性计量;最后,透视任务完成率后,由逐步拟合过程以及SPSS和MATLAB求解过程分析出任务未完成的主导因素是未同时考虑“任务点到市中心距离”与“会员地址到市中心距离”。针对问题二,首先,本文利用问题一建立的模型,得到了影响任务标价的因素。然后,利用SPSS对各个因素与任务标价进行相关性的分析,确定各因素之间的关系。其次,使用非线性回归分析模型,运用MATLAB对数据进行拟合,得到了多元非线性方程,通过数据检验可以看到其吻合程度较好;最后,对数学模型进行抽样检验,与原数据进行对比,验证了模型的合理性、有效性。针对问题三,首先,确定任务“打包”标准为区域内等分分割下对应的任务量;其次,在问题二的基础上,添加“会员的经纬度”和“等分区域内任务量”等因素,在5个指标间做基于最小二乘法的非线性回归分析,拟合“任务定价”函数;对会员“信誉度”划分为6个优先等级,优先等级直接决定会员在包内选择任务的先后次序;然后,建立出效用模型,得出任务完成率最大化、会员收益最大化以及总效用最优化的关系式表达式,建立了任务定价与总效用之间的关系;最后,制定任务“打包”状态下会员利润分配函数。针对问题四,首先,利用问题三得到的结论,对自变量进行了正态性分布检验、交互相关性检验,确定了自变量之间的相互影响,且使用Spearman秩相关系数;然后,利用任务定价与GPS关系得到积分方程,对其分别建立了幂函数曲线、Logistic曲线增长模型,并基于Simulink动态仿真模型进行多元非线性回归,相关系数分别达到了0.7631,0.9592。最后,本文对模型进行了检验,结果表明四组模型实际性较高,效果理想。同时本文还对模型进行了优缺点评价,并在横向和纵向对数学模型进行了适用性推广。综合双边市场经济理论给出合理建议。关键词:数据挖掘;众包定价机制;主成分聚类分析;多元回归分析;基于最小二乘法曲面拟合;效用模型;SPSS;2一、问题重述1.1问题重述1.1.1问题背景“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。1.1.2研究意义近年来,随着市场竞争的不断加剧,受内部创新瓶颈的制约,越来越多的企业开始尝试将具有一定创新性和技术性的工作任务通过互联网渠道委托给外部个体或组织完成,这种新兴的基于互联网的开放式协作创新模式被称为众包。随着众包规模的不断扩大,众包网站上展示的众包任务种类越来越多,交易方式也日益复杂。从实践层面看,如何根据众包任务特点选择与之相匹配的交易方式不仅是发包方和接包方十分关心的问题,也关系到众包平台的持续运营。就理论意义而言,目前学术界对于众包的研究主要集中在运营模式、参与动机。众包模式的兴起离不开互联网众包平台的发展,概念和信用评价机制等方面,对众包任务分类和交易方式匹配关系的研究尚不多见。1.1.3提出问题1.研究附件一中项目的任务定价规律,分析任务未完成的原因。2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。3二、基本假设2.1模型假设(1)样本排除广州市、深圳市、佛山市、东莞市以外的数据点;(2)样本数据中经纬度,任务定价,预定任务时间等反映其自身属性的数据波动范围较小,可取固定值;(3)GPS定位准确,即所给数据中的经纬度为准确值;(4)进行区域内任务量“打包”时产生的每一个“任务包”均不为空;(5)“任务打包”的目标是任务完成度最大化;(6)样本容量足够大,样本数据真实,能够反映具体情况;2.2名词解释众包:众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。最小二乘法:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。GPSspgxGeocoding:GPSspgxGeocoding是基于空间定位技术的一种编码方法,它提供了一种把描述成地址的地理位置信息转换成可以被用于GIS(地理信息系统)的地理坐标的方式。回归分析法:回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析法不能用于分析与评价工程项目风险。回归分析法是依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。4三、符号说明符号含义Ei两点间的平面距离PI标准圆周率AiExcel表格中第i行中心点的纬度值BiExcel表格中第i行中心点的经度值CiExcel表格中第i行任务点的纬度值Di第i行任务点的经度值X1任务地点与区域中心点距离X2区域内任务量X3区域内会员量X4任务定价xij样本中对应的每个数据i为第i组样本j第j个指标R相关系数rij指标XI*与Xj*之间的相关系数λ相关系数矩阵的特征值Ui相关系数矩阵的特征向量W累计贡献率X5任务GPS的纬度X6任务GPS的经度Bi函数自变量前的系数xl会员l获得的任务量Ul(xl)任务在被会员完成时获得的效用pk任务k的定价5四、模型建立与求解4.1数据处理、分析与挖掘数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理是从大量的原始数据抽取出有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,其过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导全过程。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析是数学与计算机科学相结合的产物。本文主要利用Excel、SPSS、MATLAB、GPSspgXGeocoding等软件进行数据处理与分析,先后对数据的格式和内容进行了收集、存储、加工、分类、归并、计算、排序、转换、检索、传播等过程,对数据进行了“提出‘坏点’”、“指标分类”、“抽取样本”、“坐标转换”、“粒度划分”、“间距计算”、“均值化消纲”、“比例分析”等处理。主要得到了以下层面的数据处理结果和数据分析成果。4.1.1剔除“坏点”利用SPSS将剔除经纬度小数点后位数不正确的数据,筛选出的点坐标请见附录显示结果如图5所示。图5GPS“坏点”分布图64.1.2数据指标的分类与样本选取本文选取的样本为上文数据处理过程的成果,共分为广州市、深圳市、佛山市、东莞市4组,每组样本容量为400,每个样品有4个指标,分别为“任务地点与区域中心点距离”、“区域内任务量”、“区域内会员量”、“任务定价”,这样每组共有1600个数据,则样本数据可表示为矩阵X:X=(X1,X2,X3,X4)=111212122212jjiiijxxxxxxxxx(1)其中X1,X2,X3,X4分别为“任务地点与区域中心点距离”、“区域内任务量”、“区域内会员量”、“任务定价”4个指标,为样本中对应的每个数据i为第i组样本,j为第j个指标,i=1,2,…,1600;j=1,2,3,4。选取的样本分别为:(1)任务地点与区域中心点距离,请见附件三《深圳、广州、东莞、佛山任务点到城市中心点的距离表》;(2)区域内任务量、区域内会员量,请见表6;(3)任务定价,请见附录。表6不同地区任务量与会员数量分类广州市东莞市深圳市佛山市完成任务量195973375会员数量15546145544.1.3经纬度转化为实际地址GPSspgxGeocoding是一种可以利用各大地图API接口(地理编码、搜索、坐标转换)进行批量处理数据的工具,其中整合了坐标转换功能,以方便兼容各家地图不同的坐标。本文从522组“已完成任务数据”中选取400组数据,从1877组“会员7信息数据”中选取400组数据,数据集合中包括具体经纬度信息,在GPSspgxGeocoding中表示出实际位置,位置点分布图如下图:图6已完成任务样本点地址示意图图7会员样本点地址示意图由地点分布图直观反映出的信息表明,任务地点多集中在东莞市、广州市和佛山市,而会员地址多集中在深圳市和广州市。84.1.4分区统计任务量与会员量从GPSspgxGeocoding导出4.1.3数据的转换结果,对导出的具体地址信息(请见附件一《已完成任务地点样本信息表》、附件二《会员样本地址信息表》)进行统计分析,结果请见下表:表7不同地区完成任务量与会员数量分类广州市东莞市深圳市佛山市完成任务量195973375会员数量1554614554根据统计分析表进一步进行指标比例分析,得到下图:图7四地区完成任务量比例分布饼图图8四地区会员数量比例分布饼图由此可见,任务及会员的地理位置会对定价规律产生影响。4.1.5区域数据粒度划分与中心选址数据粒度,是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。本文进行区域粒度划分旨在减小数据处理难度并找出不同区域数据之间的对比关系。在SPSS中以从GPSspgxGeocoding导出的实际地址为对象进行数据分类,共分为“深圳市”、“广州市”、“东莞市”、“佛山市”四个不同数据集合。经查询文献得知,“深圳市”、“广州市”、“东莞市”、“佛山市”四个地区的地理中心点经纬度分别为:(22.54571389,114.0553889)(23.13175,113.2590222)(23.02339444,113.7465917)(23.02431944,113.1164361)94.1.6计算间距在上文划分的区域中已选取地理中心点,现计算样本数据分别与四个地理中心点的距离,作为聚类分析指标之一。本文利用Excel实现两点从经纬度到平面距离的转换时所用到的公式为:Ei=6371004∗ACOS(1−(POWER((SIN((90−Bi)∗PI()/180)∗COS(Ai∗PI()/180)−SIN((90−Di)∗