机器学习在美团:吃喝玩乐中的大数据与云计算

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习@美团——吃喝玩乐中的算法问题• O2O行业及美团简介• 机器学习在用户端的应用• 机器学习在商户端的应用• 算法应用八大“坑”概要背景算法应用总结什么是O2O?O2O(OnlinetoOffline)=本地服务(LBS)+线上连接通过信息流动,减少物理流动平台用户需求信息结构化来源:TalkingData及品途网2014O2O移动应用行业报告O2O⾏行业应⽤用图谱来源:TalkingData及品途网2014O2O移动应用行业报告外卖打车电影票频度门票酒店机票租房挂号美业租⻋车拼车家政垂直vs.⽔水平(平台)什么样的领域有机会?用户获取成本vs.用户价值渗透率团购买房微信刷牙AllThatIsSolidMeltsintoAir.——KarlMarx猫眼电影国内最大的电影分销商美团外卖国内最大的外卖平台美团简介美团团购国内最大的本地生活服务电商平台美团酒店国内第二大酒店分销商消费频度vs行业深度O2Ovs网络电商共同:双边市场差异:LocaEonbased,消费距离受限O2O的特点市场规模大、增长速度快懒人经济:质优价廉低价格高品质低成本高效率低毛利高科技2000100080060040014001200201020112012201320142015e美团网交易额(亿元)2014年12月:美团网拥有1亿多活跃移动用户,移动端贡献90%的交易额807060504030201002011201220132014美团移动交易占比移动化day:1day:3-‐3.5day:5-‐100hr3hr6hr9hr12hr15hr18hr21hr50.00%40.00%30.00%20.00%10.00%0.00%电影酒店美发/美容/美体美食摄影写真生活服务休闲娱乐运动健身所有品类分品类持券时⻋长60.00%40003500300025002000150010005000北广天福杭无合成京州津州州锡肥都美容美发休闲娱乐生活服务运动健身摄影写真电影酒店美食场景化、即时化分品类持券80%距离4500美团持券时⻋长及消费距离用户• 个性化• 场景化• 即时化O2O平台商户• 动态触达用户• 提供丰富产品平台• 获取用户/商户• 匹配供给需求传统模型:边际收益递减平台模型:双边市场的网络效应=》边际收益递增=》平台价值平台:⽤用户端吸引访问/再访• 自然流量• 站外广告• 主动推送促成购买• 信息聚合• 用户行为引导• 运营拉新提升多次访购• 搜索、浏览主动引导• 个性化推荐• 跨品类转新平台:商户端商机发现• 销售拜访路线优化商家入住及上单• 预测可能入住商户• 自动写单提高上单效率运营• 风控防刷单• 销量预估• O2O及美团介绍• 机器学习在用户端的应用• 机器学习在商户端的应用• 算法应用八大“坑”概要背景算法应用总结• 运营拉新• 推送引导• 流量转化用户• 个性化• 场景化• 即时化机器学习@美团• 销量预估• 电影票房预估• ……商户• 动态触达用户• 提供丰富产品平台• 获取用户/商户• 匹配供给需求⽤用户端:运营拉新背景:首购-‐留存,吸引已注册用户完成首购目标:少花钱,多办事⽤用户端:运营拉新方法:新用户画像SVM分类• 准确率:75%• 召回率:68%效果• 拉新单位成本下降35%单位用户营销成本=总花销/总新客数• 总开支节省30%选择对象• 选择准则优化⽤用户端:推送引导背景:对不活跃用户发个性化推送消息,提升访问及购买目标:提高用户转化,减少打扰用户方法:效果:有效降低了对用户的打扰。发出消息• 目标:发出率• 固定时间拉取改为灵活推送• 发送时机优化,考虑用户的历史联网时间,当前位置发出率提高100%+打开消息• 目标:打开率• 动态文案(todo)打开率提高21%浏览/购买• 目标:转化率• 类似推荐的优化方式,提高访购率综合转化率提高94%⽤用户端:流量转化搜索浏览推荐意图强度流量规模用户偏好⽤用户端:流量转化场景位置快速交互首页推荐个性化数据同义词挖掘专名识别新词识别userprofile挖掘deal/poiprofile挖掘query/deal的topicmodel……评估框架模型训练数据清洗特征抽取数据流……推荐和搜索框架的统⼀一搜索推荐平台Poil化列表浏览人工规则干预CTRmodel相关性模型QueryRetrieval通用数据Query补全排序机制Actionmodel业务规则UserRetrieval关系数据应用层排序层模型层准入层触发层数据层FlumeAgentImpressionLogOrder/ClickLogDealDBControlServiceModel1Model2…APIOnlinetrainfeatureLabeledDataOfflinetrain服务架构演进featuremonitor高度可配置LRSVMAPICommand应用层模型层选特择征一特化征归ChisquaredStandardTopicModelGBDTMutualInformaEonMinMax分级日志模型评估基于spark的离线训练平台美团搜索历史查询词查询补全结果页搜索系统实践数据获取时效性清洗提高准确性基础数据获取查询引导同义词挖掘团单品类映射查询分析系统架构调整增加吞吐量改进协议架构支撑特征工程LR+GBDT融合效果重排序实时品类偏好实时下单位置模型在线更新实时化分词/归一化查询纠错语义扩展意图识别查询分类紧密度计算Term赋权召回及排序策略Querysuggestion相关搜索热搜词 用户查询自然语言化 检索基于字面匹配,缺乏语义扩展 语义漂移查询分析查询分析面临的问题 用户意图多元化• 精确/模糊查询• 领域多:寻找吃喝玩乐,购物,旅游,住宿…策略类型及占比商家品类商圈地标酒店旅游商品电影复合意图其他改进前12%8%-3%---1%-76%改进后21%17%7%5%6%2%1%4%9%28%意图识别搜索意图歧义示例及解决方案找门票还是酒店?通过意图分类,将“旅游”意图的POI排序提前团单品类细分品类内差异对用户造成的困扰“咖啡/酒吧/蛋糕”在后台配置为同一个类目下的品类通过文本分类拆分子品类,或者说打标签人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满足用户精确品类检索的意图美团频道筛选groves频道筛选实践数据清洗在线获取训练所需特征数据及特征工程使用位置信息引入排序模型粗排序新单推荐使用位置信息冷启动Additive使用位置分品类细化重排序实时品类偏好实时下单位置实时特征更新实时化    poi-‐user特征•当前距离•历史距离•最近点击/下单/支付•历史点击/下单/支付    deal特征•CTR/CVR    •CVR•折扣力度•是否新单•是否促销deal-‐user特征•商圈•品类•价格user特征• 终端类型• 地理位置• 消费水平• 品类偏好    •CPR重排序:特征poi特征•#评论数•#有图评论/优质评论•CTR/CVR/CXRrankAdditiveGroves数值类特征详情页特有特征列表页特有特征GBDTLR重排序:框架数据实时化• 预测结果随数据更新而变化• 2小时销量数据• 2小时内数据预测用户实时偏好• 进入列表页请求用户地理位置,下单率提升3%• 模型天级更新• Onlinelearning继续尝试中美团推荐其他展位:搜索无结果推荐,购买后推荐,评价后推荐,附近推荐推荐系统实践user/itemcf相似性调整经典算法改进销量预估用户分群地理位置偏好冷启动附近热单异地浏览时间上下文上下文筛选LRGBDT融合效果重排序特征实时化偏好实时化算法实时化实时化hap://tech.meituan.com/mt-‐recommend-‐pracEce.html⽤用户冷启动• 行为少,找不到有意义的相似用户• LocaEon,locaEon,locaEon• 基于地理位置计算用户相似性:作为替补策略,效果一般• 浏览地附近热单,作为上下文信息使用20140609201406102014061120140612201406132014061420140615201406162014061720140618201406192014062020140621201406222014062320140624201406252014062620140627201406282014062920140630加⼊入contextbaselinehot_for_local• 附近热单• “本地人热单”• “本地热单”下单率浏览推荐意图强度流量规模⽤用户端:流量转化统一框架,快速迭代,经验共享搜索商户端:不仅是算法挑战训练数据规模小标注标准复杂主观单用户特征不可用多团队合作挖掘可扩展的特征采用非线性、鲁棒模型复杂目标进行模型分解交叉验证减少噪音人机结合提取稳定因素使用用户统计特征协调各方预期和利益团购单销售额预估背景:在线deal数量众多,需要关注deal的质量目标:评估deal的质量方法:分解问题• 以销售额来代表质量• 再分解销售额hap://tech.meituan.com/mt-‐mlinacEon-‐how-‐to-‐ml.html根据问题特征/模型并迭代效果:1. 访购率预测准确率(R2):0.82. 价格特征权重符合产品预期挑战:电影票房预测背景:电影票房预测数据可以指导片方发行/院线排片目标:得到可用票房预测机遇:猫眼30%+市占的数据用户其他行为及消费记录东西方人情世故不同演员/导演的名气不靠谱度量搜索/社交媒体效果不理想• O2O及美团介绍• 机器学习在用户端的应用• 机器学习在商户端的应用• 算法应用八大“坑”概要背景算法应用总结学习算法应⽤用⼋八⼤大“坑”确实需要上算法么?星际可以穿越,但特征不能!算法一定要酷炫算法准确率不到90%就是耍流氓?重算法、轻速度(响应速度/迭代速度)上线就是大功告成线上AB定⼀一切统计分析实时化

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功