2-王栋-机器学习在美团:吃喝玩乐中的计算3

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习@美团——吃喝玩乐中的算法问题王栋wangdong07@meituan.com背景•O2O行业及美团简介算法应用•机器学习在用户端的应用•机器学习在商户端的应用总结•算法应用八大“坑”概要什么是O2O?O2O(OnlinetoOffline)=本地服务(LBS)+线上连接通过信息流动,减少物理流动平台用户需求信息结构化来源:TalkingData及品途网2014O2O移动应用行业报告O2O行业应用图谱来源:TalkingData及品途网2014O2O移动应用行业报告团购外卖打车电影票频度渗透率门票酒店机票租房挂号美业家政租车拼车什么样的领域有机会?垂直vs.水平(平台)用户获取成本vs.用户价值买房刷牙微信AllThatIsSolidMeltsintoAir.——KarlMarx美团团购国内最大的本地生活服务电商平台猫眼电影国内最大的电影分销商美团酒店国内第二大酒店分销商美团外卖国内最大的外卖平台美团简介消费频度vs行业深度O2O的特点O2Ovs网络电商共同:双边市场差异:Locationbased,消费距离受限市场规模大、增长速度快懒人经济:质优价廉低价格低成本低毛利高品质高效率高科技0200400600800100012001400201020112012201320142015e美团网交易额(亿元)2014年12月:美团网拥有1亿多活跃移动用户,移动端贡献90%的交易额010203040506070802011201220132014美团移动交易占比移动化0.00%10.00%20.00%30.00%40.00%50.00%60.00%0hr3hr6hr9hr12hr15hr18hr21hrday:1day:3-3.5day:5-10电影酒店美发/美容/美体美食摄影写真生活服务休闲娱乐运动健身所有品类分品类持券时长场景化、即时化050010001500200025003000350040004500美容美发休闲娱乐生活服务运动健身摄影写真电影酒店美食分品类持券80%距离美团持券时长及消费距离O2O平台平台•获取用户/商户•匹配供给需求用户•个性化•场景化•即时化商户•动态触达用户•提供丰富产品传统模型:边际收益递减平台模型:双边市场的网络效应=》边际收益递增=》平台价值平台:用户端吸引访问/再访•自然流量•站外广告•主动推送促成购买•信息聚合•用户行为引导•运营拉新提升多次访购•搜索、浏览主动引导•个性化推荐•跨品类转新平台:商户端商机发现•销售拜访路线优化商家入住及上单•预测可能入住商户•自动写单提高上单效率运营•风控防刷单•销量预估背景•O2O及美团介绍算法应用•机器学习在用户端的应用•机器学习在商户端的应用总结•算法应用八大“坑”概要机器学习@美团•运营拉新•推送引导•流量转化•销量预估•电影票房预估•……平台•获取用户/商户•匹配供给需求用户•个性化•场景化•即时化商户•动态触达用户•提供丰富产品用户端:运营拉新背景:首购-留存,吸引已注册用户完成首购目标:少花钱,多办事用户端:运营拉新方法:新用户画像SVM分类•准确率:75%•召回率:68%效果•拉新单位成本下降35%单位用户营销成本=总花销/总新客数•总开支节省30%用户端:推送引导选择对象•选择准则优化发出消息•目标:发出率•固定时间拉取改为灵活推送•发送时机优化,考虑用户的历史联网时间,当前位置打开消息•目标:打开率•动态文案(todo)浏览/购买•目标:转化率•类似推荐的优化方式,提高访购率背景:对不活跃用户发个性化推送消息,提升访问及购买目标:提高用户转化,减少打扰用户方法:效果:有效降低了对用户的打扰。发出率提高100%+打开率提高21%综合转化率提高94%用户端:流量转化搜索浏览推荐意图强度流量规模用户偏好用户端:流量转化场景位置快速交互推荐和搜索框架的统一CTRmodelActionmodelQueryRetrievalUserRetrieval通用数据Poil化列表浏览Query补全首页推荐个性化数据应用层模型层触发层数据层关系数据同义词挖掘专名识别新词识别userprofile挖掘deal/poiprofile挖掘query/deal的topicmodel……人工规则干预排序机制排序层评估框架模型训练数据清洗特征抽取数据流……搜索推荐平台相关性模型业务规则准入层FlumeAgentImpressionLogLabeledDataOrder/ClickLogDealDBControlServiceModel1Model2…APIOnlinetrainfeatureOfflinetrain服务架构演进featuremonitorLRSVMMinMaxStandardAPICommand应用层模型层特征归一化特征选择ChisquaredTopicModelGBDTMutualInformation分级日志高度可配置模型评估基于spark的离线训练平台美团搜索历史查询词查询补全结果页搜索系统实践数据获取时效性清洗提高准确性架构支撑基础数据获取查询引导同义词挖掘团单品类映射查询分析系统架构调整增加吞吐量改进协议重排序特征工程LR+GBDT融合效果实时化实时品类偏好实时下单位置模型在线更新查询分析面临的问题用户意图多元化•精确/模糊查询•领域多:寻找吃喝玩乐,购物,旅游,住宿…召回及排序策略分词/归一化查询纠错意图识别语义扩展紧密度计算Term赋权查询分类Querysuggestion相关搜索热搜词用户查询自然语言化检索基于字面匹配,缺乏语义扩展语义漂移查询分析搜索意图歧义示例及解决方案策略类型及占比商家品类商圈地标酒店旅游商品电影复合意图其他改进前12%8%-3%---1%-76%改进后21%17%7%5%6%2%1%4%9%28%意图识别找门票还是酒店?通过意图分类,将“旅游”意图的POI排序提前品类内差异对用户造成的困扰团单品类细分“咖啡/酒吧/蛋糕”在后台配置为同一个类目下的品类通过文本分类拆分子品类,或者说打标签人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满足用户精确品类检索的意图美团频道筛选频道筛选实践数据清洗在线获取训练所需特征冷启动数据及特征工程使用位置信息引入排序模型粗排序新单推荐使用位置信息重排序Additivegroves使用位置分品类细化实时化实时品类偏好实时下单位置实时特征更新poi-user特征•当前距离•历史距离•最近点击/下单/支付•历史点击/下单/支付deal-user特征•商圈•品类•价格deal特征•CTR/CVR•CVR•折扣力度•是否新单•是否促销user特征•终端类型•地理位置•消费水平•品类偏好poi特征•#评论数•#有图评论/优质评论•CTR/CVR/CXR•CPR重排序:特征列表页特有特征rankAdditiveGroves数值类特征详情页特有特征GBDTLR重排序:框架数据实时化•预测结果随数据更新而变化•2小时销量数据•2小时内数据预测用户实时偏好•进入列表页请求用户地理位置,下单率提升3%•模型天级更新•Onlinelearning继续尝试中美团推荐其他展位:搜索无结果推荐,购买后推荐,评价后推荐,附近推荐推荐系统实践user/itemcf相似性调整上下文筛选经典算法改进销量预估用户分群地理位置偏好冷启动附近热单异地浏览时间上下文重排序LRGBDT融合效果实时化特征实时化偏好实时化算法实时化用户冷启动•行为少,找不到有意义的相似用户•Location,location,location•基于地理位置计算用户相似性:作为替补策略,效果一般•浏览地附近热单,作为上下文信息使用加入context•附近热单•“本地人热单”•“本地热单”20140609201406102014061120140612201406132014061420140615201406162014061720140618201406192014062020140621201406222014062320140624201406252014062620140627201406282014062920140630baselinehot_for_local下单率用户端:流量转化搜索浏览推荐意图强度流量规模统一框架,快速迭代,经验共享商户端:不仅是算法挑战训练数据规模小挖掘可扩展的特征采用非线性、鲁棒模型标注标准复杂主观复杂目标进行模型分解交叉验证减少噪音单用户特征不可用人机结合提取稳定因素使用用户统计特征多团队合作协调各方预期和利益团购单销售额预估背景:在线deal数量众多,需要关注deal的质量目标:评估deal的质量方法:分解问题•以销售额来代表质量•再分解销售额根据问题特征/模型并迭代效果:1.访购率预测准确率(R2):0.82.价格特征权重符合产品预期电影票房预测挑战:东西方人情世故不同演员/导演的名气不靠谱度量搜索/社交媒体效果不理想背景:电影票房预测数据可以指导片方发行/院线排片目标:得到可用票房预测机遇:猫眼30%+市占的数据用户其他行为及消费记录背景•O2O及美团介绍算法应用•机器学习在用户端的应用•机器学习在商户端的应用总结•算法应用八大“坑”概要学习算法应用八大“坑”确实需要上算法么?星际可以穿越,但特征不能!算法一定要酷炫算法准确率不到90%就是耍流氓?重算法、轻速度(响应速度/迭代速度)上线就是大功告成线上AB定一切统计分析实时化美团技术沙龙筹办中,敬请关注标题请注明机器学习算法/架构工程师,简历投递地址hr.tech@meituan.com相关问题探讨及咨询,个人微信号:dwang97

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功