LOGO之前的问题AUC为0.3240?在CTR预估评价中会用LogLoss,为什么不是其他的LossFunction,还是其他的lossfunction也可以?logloss一定是凸函数吗?怎么证明?LOGO之前的问题机器学习实训营第一次作业train数据有整行重复的数据,需不需要去重?在CTR预测中,在抽取特征的过程中,用到了map的形式,在python中用了dict,那么当特征维度过大的时候怎么办,如超出字典的最大长度。实际应用中有没有什么更为巧妙而成熟的实现方式?LOGO之前的问题test集预测结果后,计算auc的值一直为1?问:测试集没有标签,怎么计算的AUC?答:测试集没有label,设置一个阈值为0.5,大于0.5,label为1,小于0.5,label为0,然后计算auc。LOGO推荐系统—排序篇什么是推荐系统?物品推荐系统推荐系统是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的物品的系统推荐系统两个阶段召回阶段排序阶段召回出用户感兴趣的item对这些item排序后展示给用户推荐系统两个阶段召回算法基于内容基于协同过滤冷启动相关算法推荐系统两个阶段LOGO排序介绍什么是排序决定item以何种顺序展示给用户LOGO排序介绍为什么要排序位置往往很关键不同排序往往有不同效果排序算法可以带来50%到成倍的提高LOGO排序介绍排序指标AUCMAPNDCGMRRGroupAUCLOGO排序介绍排序指标AUC衡量整体的排序能力怎样计算?LOGO排序介绍排序指标AUClabelscore10.8500.7310.6500.5200.45排序后结果:LOGO排序介绍排序指标AUClabelscore10.8500.7310.6500.5200.45排序后结果:AUC=?LOGO排序介绍排序指标AUClabelscoreTPFP10.8500.7310.6500.5200.45TP:正确正样本个数/正样本总个数FP:错误正样本/负样本的总个数LOGO排序介绍排序指标AUClabelscoreTPFP10.851/2000.731/21/310.6511/300.5212/300.4511TP:正确正样本个数/正样本总个数FP:错误正样本/负样本的总个数AUC=5/6LOGO排序介绍排序指标AUC衡量组内的排序能力怎样计算?LOGO排序介绍组的概念:一般在一个session的item为一组,一次请求为一个session是在一起展示的itemlist例子:请求1:i3,i2,i5,i7请求2:i2,i1,i7,i8i3,i2,i5,i7为一组i2,i1,i7,i8为一组LOGO排序介绍例子:itemscorelabeli30.851i20.730i50.650i70.521itemscorelabeli20.911i10.631i70.500i80.410itemscorelabeli20.911i30.851i20.730i50.650i30.631i70.521i70.500i80.410AUC=?LOGO排序介绍例子:itemscorelabelTPFPi20.911i30.851i20.730i50.650i30.631i70.521i70.500i80.410AUC=?LOGO排序介绍例子:itemscorelabelTPFPi20.9111/40i30.8511/20i20.7301/21/4i50.6501/21/2i30.6313/41/2i70.52111/2i70.50013/4i80.41011AUC=?LOGO排序介绍例子:itemscorelabelTPFPi20.9111/40i30.8511/20i20.7301/21/4i50.6501/21/2i30.6313/41/2i70.52111/2i70.50013/4i80.41011AUC=3/4LOGO排序介绍例子:itemscorelabeli30.851i20.730i50.650i70.521itemscorelabeli20.911i10.631i70.500i80.410AUC=1/2AUC=1GroupAUC=(1/2+1)/2=3/4GroupAUC每个小组auc的平均值LOGO排序介绍排序指标MAP:MeanAveragePrecisionP(k):若第k个被点,代表前k个点击率,否则等于0m代表总共被点击的item个数,n代表总个数LOGO排序介绍排序指标itemscorelabeli30.851i20.730i50.650i70.521itemscorelabeli20.910i10.631i70.501i80.410MAP@4=?LOGO排序介绍排序指标itemscorelabelP(k)i30.8511/1i20.7300i50.6500i70.5211/2P(k):若第k个被点,代表前k个点击率,否则等于0ap@4=(1+1/2)/2=3/4LOGO排序介绍排序指标P(k):若第k个被点,代表前k个点击率,否则等于0ap@4=(1/2+2/3)/2=?itemscorelabelp(k)i20.910?i10.631?i70.501?i80.410?LOGO排序介绍排序指标P(k):若第k个被点,代表前k个点击率,否则等于0ap@4=(1/2+2/3)/2=5/12itemscorelabelp(k)i20.9100i10.6311/2i70.5012/3i80.4101LOGO排序介绍作业1:写代码算MAPLOGO排序介绍排序指标NDCG指标LOGO排序介绍排序指标itemscorelabeli30.855i20.730i50.650i70.521itemscorelabeli20.911i10.635i70.501i80.410NDCG@4=?NDCG@4=?LOGO排序介绍排序指标itemscorelabel分子分母i30.855311i20.7300log2(3)i50.6500log2(4)i70.5211log2(5)DCG@4=31+1/log2(5)LOGO排序介绍排序指标itemlabel分子分母i35311i200log2(3)i500log2(4)i711log2(5)DCG@4=31+1/log2(5)itemlabel分子分母i35311i701log2(3)i500log2(4)i200log2(5)IDCG@4=31+1/log2(3)nDCG=DCG/IDCGLOGO排序介绍排序指标itemscorelabeli20.911i10.635i70.501i80.410DCG=?IDCG=?LOGO排序介绍排序指标DCG@4=3/2+31/log2(3)IDCG@4=63/2+1/log2(3)itemlabel分子分母i211log2(2)i1531log2(3)i711log2(4)i800log2(5)itemlabel分子分母i1531log2(2)i211log2(3)i711log2(4)i800log2(5)LOGO排序介绍作业2:写代码算NDCGLOGO排序介绍排序指标MRR指标LOGO排序介绍排序流程数据预处理特征抽取模型训练后处理LOGO排序介绍排序流程数据预处理特征抽取模型训练后处理LOGO排序介绍预处理skipabovepositionbias去除pair生成LOGO排序介绍怎样确定用户看到了?好的位置?埋点?LOGO排序介绍skipaboveLOGO排序介绍positionbias排序靠前,即使不是用户感兴趣的item,点击下单也会多LOGO排序介绍positionbiasClickOverExpectClickLOGO排序介绍positionbiasClickModel(1|0)0iiPCE()(1|1)iiiPCEr这样CTR被分解为:位置偏向性相关性LOGO排序介绍positionbias其他方法训练时候带有位置特征,预测的时候去掉LOGO排序介绍排序流程数据预处理特征抽取模型训练后处理LOGO排序介绍特征抽取不同类型模型,特征也不一样线性模型/因子模型离散化组合树模型数值化LOGO排序介绍特征抽取id类特征线性模型/特征模型OneHotEncoding树模型基于id的统计特征LOGO排序介绍特征抽取数值特征线性模型/特征模型