机器学习在美团用户画像中的应用付晴川fuqingchuan@meituan.com2015-11-213W什么是用户画像?为什么要做用户画像?如何做用户画像?什么是用户画像?什么是用户画像?什么是用户画像?数据签化为什么需要用户画像?为什么需要用户画像?•自动化•运营效率•营收提升•用户体验用户商户工程师美团在对的时间获取对的服务!获取更多的潜在优质客户!更精准高效的活动策略制定!数据应用接口标准化/通用化!如何来做用户画像?架构•特征•模型算法实践问题架构–系统概览架构——细节解读MTdmspa项目统一特征提取框架动机1.多工程师/多个模型“自给自足”,特征分散。2.存在人力/计算资源冗余。实现1.特征统一提取/集中存储——大一统特征库。2.支持no-coding/配置化提特征。效果1.建模周期:3~4周下降到1~2周。2.人力/计算冗余减少2倍(估算值)架构——细节解读MTutvs系列项目用户画像统一接口多系统项目动机1.数据挖掘成果需要友好统一的输出接口:可视化+API实现1.用户标签体系WEB可视化2.用户标签索引/实时查询3.报表自动化效果1.成果推广加速/沟通成本降低2.传统用户问卷调查报报告周期1个月,utvs系统10分钟!算法–用户特征需要做横跨多个产品线的特征提取!算法–用户特征体系用户特征体系一级/业务基本团购外卖酒店电影上门……二级/行为注册登陆浏览下单搜索收藏评论消费分享LBS……三级/时间年月日周早中晚周末工作日节假日……+每+最近自由级/可选品类品牌词条…MxNxKxL=?特征膨胀算法–用户特征算法–用户特征算法–特征与效果实例用户职业标签:学生身份识别算法-问题及常用模型实践-问题及常用模型---实例模型实例一项目有车一族标签挖掘需求1.汽车服务推广活动需要精准圈定有车人群降低营销成本。实现1.样本:问卷调查正样本+随机负样本2.特征:信息增益特征离散化+卡方/信息增益/互信息等特征选择3.模型:trySVM/MaxEnt/LR=SVM效果1.离线评测:P93%,R85%2.线上对比:推送打开率提升3倍,下单率提升5倍!实践-问题及常用模型---实例模型实例一项目常住地标签挖掘需求1.决策支持:酒店需要分析用户下单与地域关系,决定是否上异地推荐模块。实现1.样本:问卷调查2.模型:tryLR/SVM/RF/GBDT=LR3.多个LR模型组合效果1.离线评测:P96%,R73%2.线上对比:新上异地模块点击率超越历史最佳“名店抢购”1个百分点!实践-关于算法工程师的段子……理想中的算法工程师提出假设-收集数据-训练模型-解释结果实际中的算法工程师提出假设-收集数据-预处理-预处理-训练模型-调试-调试-重新收集数据-预处理-收集更多数据-调试-调试-调试-…放弃实践-分享:那些年踩过的坑……目标效果现实效果分享一数据挖掘的天花板实数据本身!ToDo:努力逼近这个效果而不是较劲!实践-分享:那些年踩过的坑……分享二实际应用中特征作用远大于模型!ToDo:在深度优化模型之前,先榨干数据特征的增益吧!特征至少带来80%+的收益。模型特征实践-分享:那些年踩过的坑……分享三关于样本:样本少/不均衡!ToDo:1)SVM或TSVM,2)undersampling/oversampling/SMOTE。不均衡?实在无样本:可以考虑随机+规则过滤方法挑样本!Smote要用到KNN,高维不靠谱!收集样本才是王道!实践-分享:那些年踩过的坑……分享四训练集特征分布和自然待测数据不一致。ToDo:特征如果跟Label有直接关联就不要用了。建模训/测效果好的离谱自然结果一塌糊涂实践-分享:那些年踩过的坑……分享五不要有把锤子,就把所有的问题当钉子。ToDo:多了解模型的优缺点,选择合适的模型!考察点分类/回归/…样本大小异常点敏感度效果/性能tradeoff容易过拟合?线性/非线性Q&AThemereformulationofaproblemisfarmoreessentialthanitssolution.--AlbertEinsteinThankYou!