1大数据内容营销解决方案杭州研发中心2017年2月2建设背景方案背景/需求分析13背景:咪咕“双计双考”对省公司来说既是机遇又是挑战业务层面支撑层面1、双记双考后,省公司如何完成KPI2、如何有效通过咪咕内容营销带动省内流量营销、提升收入3、如何通过咪咕内容营销提升用户活跃度4、如何锁定咪咕内容的目标用户,实现精准投放1、短信通道受阻后,省内所有触点能否为咪咕内容营销提供协同2、省内咪咕内容的营销活动能否做到有效监控3、咪咕下发的内容标签无法关联省内用户标签4、缺乏模型算法寻找咪咕内容的目标用户目前,省内咪咕内容营销已经成为省公司提升流量和用户活跃度的重要手段,集团下发“双计双考”后对省公司既是挑战又是机遇。4省公司可通过整合咪咕的营销资源,业务资源及数据(标签)资源实现内容营销获客及精准营销咪咕公司由于缺乏用户基础信息数据与行业画像数据,在营销方案制定与获客等场景中受限,因此有强烈的与省公司合作的意愿业务融合营销资源融合数据标签融合省公司营销资源-营销渠道-流量-客户等资源咪咕营销资源-CP-渠道商-发行商等资源资源融合省公司和咪咕公司的客户和渠道资源不尽相同,省公司可以整合咪咕公司的客户渠道等资源,扩展现有营销目标客户以及营销渠道,提升内容及流量营销用户量及收入省公司业务-4G流量-家庭宽带-融合业务等咪咕公司业务-五大业务产品-内容资源业务融合4G流量以及家庭宽带是省公司目前关注的重点业务,省公司可以通过整合咪咕丰富的内容服务不断提升用户体验,提高家庭宽带等重点业务的市场占有率省公司数据-用户属性/通信数据-位置数据/网络行为数据等咪咕公司数据-用户内容偏好数据-用户活跃、留存数据等数据标签融合由于省公司用户标签与咪咕内容标签未融合,现仅采取粗放式全量用户进行营销推送,营销方式和效果均不理想。省公司可通过整合咪咕数据标签实现精准推送提升营销效果。省公司关注点(1/2)——内容营销5省公司关注点(2/2)——标签(数据)需求目前,咪咕公司部分自有数据与省公司DPI数据没有契机充分结合,没有利用现有数据充分展现出数据优势与市场竞争力。咪咕——用户行为、渠道、资源省公司——DPI、位置、渠道触点咪咕阅读用户标签——APP内用户行为咪咕用户标签——DPI内容标签、基础标签、位置营销推荐效果分析——活跃、留存、付费、推广渠道营销推荐过程——目标用户群、到达率、渠道触点、营销成本完整的咪咕用户标签营销推荐闭环分析获客和维挽——版权、内容资源,免流量产品获客和维挽——广告位、渠道、结合套餐资源互补6经调研,省内咪咕营销现状/业务痛点1.PV2.UV3.用户数4.……各渠道分别上线效果评估其他渠道微厅短厅掌厅营销平台省内电子渠道/外部渠道内容调整内容库咪咕内容负责人省内咪咕营销运营人员1234咪咕阅读咪咕音乐咪咕动漫咪咕视频咪咕搜集整理人工维护邮件传递二次编辑爬虫内容2业务目标业务痛点13省内咪咕营销现状咪咕内容缺乏,需邮件传递,获取效率低咪咕内容标签缺失,且无法与省公司标签库匹配缺少模型算法寻找目标用户群,个性化推荐程度低4很多内容需二次编辑才能在各渠道上线56缺乏模型算法智能筛选热门内容,仅凭运营经验省内内容库需要人工整理维护,更新不及时智能获取合适的推广内容(如热门内容)列表(名称、URL地址等信息),同时找到与该内容匹配的目标用户群,可直接用于营销平台进行投放能够获取指定用户群(如月末流量剩余用户)感兴趣的内容列表,可直接用于投放72省内咪咕内容营销解决方案8杭硏提供省内咪咕内容营销解决方案省内咪咕内容营销解决方案营销案管理统一用户标签营销投放触点管理提供丰富的内容标签与内容库,通过模型算法为省公司用户标签与咪咕内容标签搭建匹配桥梁,助省公司实现咪咕内容的精准投放,提高用户粘性。统一接入省公司所有触点,支撑营销案的线上流转,构建咪咕公司与省公司运营人员可协同合作的线上平台,缩短投放时间与内容更新周期。省公司运营人员咪咕运营人员新建投放任务上传投放物料圈选目标用户体验与合规性审核营销投放选择投放触点音乐库视频库小说库动漫库其他库新闻库内容库营销案投放过程①②③④⑤⑥省公司用户标签系统咪咕内容标签系统用户上网行为内容标签统一用户ID标签扩充用户内容标签咪咕内容标签用户-咪咕内容匹配推荐模型模型用户-咪咕内容匹配模型触点用户行为数据标签计算系统更新用户标签效果分析用户行为数据方案优化手厅首页应用推荐广告位手厅发现娱乐咪咕阅读广告位9杭研为省内提供咪咕内容营销解决方案1.积累内容库基于互联网数据,通过爬虫和统一标签技术,积累内容库(音乐/视频/阅读/阅读/游戏)通过解析全网DPI数据,对用户浏览的咪咕内容进行分类,生成内容分类体系,定期更新2.沉淀用户内容偏好标签基于全网DPI数据和内容库,通过DPI二次解析技术,形成用户行为宽表基于用户行为宽表,定期沉淀用户内容偏好标签3.关联内容与目标用户,助力精准营销基于模型算法将咪咕内容找到目标用户群为特定用户群匹配感兴趣内容咪咕+杭研省公司输出结果图例杭研+咪咕互联网数据省公司标签库内容库(音乐、视频、阅读、动漫、游戏)省公司DPI数据用户内容访问宽表用户/内容标签推荐算法2省公司营销平台爬虫、统一标签定期沉淀更新内容库监控分析验证模型训练模型内容排行表推荐算法1省公司标签咪咕内容+目标用户列表特定用户群+推荐咪咕内容列表咪咕内容列表咪咕音乐竞品方案用户内容偏好模型10为省内构建完善的内容库杭研爬虫工程内容库(定期更新)文件导出工程(加密)文件解析工程(解密)省公司DPI日志解析算法组件内容数据传送杭研1、爬虫工程:负责爬取网络音乐、阅读等数据,持续更新。2、内容库:将互联网内容分类映射到杭研内容分类体系,形成杭研数字内容库。3、文件导出工程:对内容库数据进行处理,形成加密文件,上传至FTP服务器。省公司1、文件解析工程:定期检查FTP服务器更新,拉取内容库数据并解密。2、省公司内容库:定时运行,同步杭研最新内容库到省公司。3、离线计算工程:对接省公司大数据平台,通过使用杭研定制的算法组件,解析DPI日志数据,形成用户行为宽表。爱奇艺分类搜狐视频分类腾讯视频分类…站点分类体系杭研分类映射表统一分类体系杭研内容分类体系构建省公司内容库视频库游戏库动漫库音乐库阅读库省内内容库的构建11爬虫内容库远程部署方案注:1.一期优先部署动漫库、阅读库和视频库后期部署其余类别2.一期爬虫覆盖绿色部分,后期爬虫覆盖剩余部分,可动态调整内容库更新频率:暂定每天早上8点之前传输成功应用程序爬虫数据处理Cache杭研爬虫网络省公司业支大数据平台RedisRedis应用程序本地缓存WEB服务器1数据库服务器2应用程序内容库导出服务器CacheRedisMapReduceDPI日志Hadoop集群-节点6Redis集群Hbase省公司互联网中心Hadoop集群加密传输应用程序文件解析工程文件解析规则库文件应用程序Web控制台数据库数据库数据库数据库服务器1文件规则库文件应用程序规则库文件内容库文件拉取Hadoop集群爬虫范围12内容库分类样例:百度书城爬虫内容详情样例:爬虫内容库内容示例自定义分类体系标准示例:注:杭研对咪咕内容五大类的分级体系重新梳理13构建标签体系,沉淀用户标签标签沉淀工程是通过解析用户DPI行为数据关联内容库信息、获取用户浏览偏好,沉淀为用户标签。标签体系的构建1、内容ID匹配:解析用户DPI数据中每条URL,将其中的“ID字符”与湖北内容库中的“ID字符”进行匹配2、沉淀内容标签:根据爬取的网页信息,找到该内容对应的细分类别,沉淀为内容标签,例如“轻音乐-邓丽君—甜蜜蜜”。3、沉淀用户标签:定期统计用户访问所有内容的频次,将频次较高的内容对应的标签沉淀为用户标签。4、定期更新:将所有用户标签入库、用户标签定期更新(如每周、每月等)。标签计算标签沉淀工程内容id匹配用户URL内容标签湖北内容库数据积累DPI解析结果用户行为分析生成用户标签2G/3G/4G数据14打通内容标签与用户标签,提供基于个性化推荐的内容目录打通内容标签与用户标签,提供基于个性化推荐的内容目录音乐库爬虫程序静态网页抓取DPI二次解析用户上网数据解析用户上网数据解析基于内容的推荐模型基于用户的推荐模型内容热度rank模型LFM推荐模型用户兴趣协同过滤结合模型内容标签体系内容库模型热门内容(如视频)推荐列表血战钢锯岭(ID:10495958):1382392474、13823321349、13823978789……用户-内容(如阅读)推荐列表13823924740:天涯明月刀(ID:13666465),落日风雷(ID:19384898),英雄志(ID:98742298)内容(如音乐)-用户推荐列表黑色柳丁(ID:12774498):1382392474,13823321349,13823978789……用户标签体系基于内容的推荐模型:1,根据内容标签计算内容-内容相似度2,提取目标内容A相关性较高topN的内容3,将近期浏览过相关性较高的topN内容且未浏览过目标内容A的用户加入目标内容A的推荐列表基于用户的推荐模型:1,根据用户标签计算用户-用户相似度2,提取目标用户A相似度较高topN的用户3,将相似度较高topN用户近期浏览频率较高且目标用户A未浏览过的内容加入目标用户A的推荐列表LFM推荐模型:1,根据已有用户、内容的标签,构造用户-内容相关度矩阵,进行LMF矩阵分解,且迭代更新矩阵2,根据用户-内容相关度矩阵,提取用户未看过且相关度较高的内容列表内容热度rank模型:1,根据内容类型,人工选择内容热点topN网站作为目标网站。2,DPI解析目标网站的用户浏览行为,统计热度排序topK内容用户兴趣协同过滤结合模型:1,用户的搜索和点击行为,构建贝叶斯框架,预测用户对内容的兴趣2,对用户聚类,根据兴趣相似用户浏览行为为用户推荐内容基于标签的推荐模型视频库阅读库动漫库省公司标签体系手机号—imei—用户标签—推荐内容列表内容名称—内容地址—内容ID—目标用户(手机号码)内容名称—内容地址—内容ID—目标用户(手机号码)15业务系统层数据层基础能力层内容列表上传Web展示结果文件前20展示同步至省内营销平台文件导出Txt、excel、csv内容-目标用户匹配列表热门咪咕内容推荐内容匹配用户用户群列表上传特定用户-兴趣内容匹配列表标签圈选用户群用户匹配内容匹配计算结果展示基础数据互联网数据位置数据DPI数据标签数据湖北大数据平台数据杭研内容库内容库标签更新能力定期更新、随时更新用户标签与内容标签互补更新用户标签沉淀能力基础标签业务标签挖掘标签内容标签沉淀能力基础标签挖掘标签网络爬虫能力DPI二次解析能力终端数据采集能力数据分析能力自定义分类体系梳理用户&内容匹配模型基于用户的推荐模型基于内容的推荐模型协同过滤推荐算法咪咕内容营销产品视图咪咕+内容16业务系统接口推荐系统用户画像MIGU内容库索引系统内容标签分类建模省公司大数据爬虫库(内容/APP)DPI二次解析器基础数据处理引擎用户偏好挖掘模型/算法MIGU内容标签库杭研爬虫基础数据统一存储层可视化子系统MIGU内容列表业务层画像层数据层模型层咪咕内容营销系统架构17解决方案应用场景318省内营销人员热门内容特定用户群选择要投放的咪咕内容,可输出目标用户群用户数及明细定时或动态时段输出互联网或咪咕热门内容1.1提供上传内容列表的入口1.2内容列表上传2特定用户+推荐咪咕内容列表指定用户群预置标签规则或上传用户群感兴趣咪咕内容模型算法匹配输出用户群感兴趣的咪咕内容列表2输入特定用户群:预置标签规则或上传用户群1或咪咕/门户热门内容指定领域互联网APP爬虫互联网热门内容内容匹配预置规则如:TOP5APP内容+目标用户群模型算法对接省内营销平台或以“文件”文件形式导出3使用方式使用方式营销平台投放对接对接省内营销平台或以“文件”文件形式导出3投放投放省内营销人员使用场景说明注:以上使用方式仅供参考,具体实现方式待