[2] 淘宝文本中的语义分析以及技术展望

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

淘宝网语义分析产品、技术介绍王天舟(空海)淘宝网-交易线-语义分析个人介绍•花名空海淘宝网中的文本□淘宝主站:•30亿店铺、宝贝浏览•10亿计的在线宝贝数•千万量级交易笔数□文本数据:•用户评论•商品标题、详情页•用户query数据•SNS、论坛等其他数据海量文本数据带来的价值和挑战有限框架数据的补充、用户UGC信息如何结构化、高效计算呈现文本数据挖掘文本价值文本源数据抽取特征、构建向量评估、展现向量算法语义分析平台架构总览评价详情页SNS/分享数据文本数据层次聚类谱系聚类聚类算法SVM/ANN/决策树/贝叶斯分类算法大家印象U站推荐UE反馈产品分词/新词特征计算层商品标题词之间相关序列标注句法分析实体语义北极圈KmeansKNN今天的话题□相关业务场景:标签、内容、分类打标□相关算法和问题□文本技术拓展文本标签服务内容相关、相似框架提取文本分类单品标签“大家印象”商品导购标签标签范围不确定:卖家自填商品标签;买家行为标签通过算法圈定标签,如搜索query:1、关键字聚合(商品重合度\购买人群重合度)2、关键字筛选(搜索UV\商品数量\购买转化)标签范围确定:买家自然属性BI根据以往数据确定标签范围(如:18岁以下\18岁—25岁\25岁-35岁\35岁以上)怎么样的标签的规模是合适的,长尾标签怎么处理?需要BI提供数据模型,对标签的规模、数量提供界定范围;根据标签覆盖的商品数来确定需要增加的标签。根据商品和标签的关联性,对商品进行打标。如用户偏好点击、购买、收藏的商品;商品的标题、属性相关性;商品与商品之间的关联性商品打标名校大学生北京白领白富美牙痛情侣苍老师头层皮惠美小清新海宁真皮深V禅西湖美女送货24夜市复古胖妞独家广货村姑原创卡通果粉陌陌屌大妈宅男高端90后婆婆甜蜜蜜夜店结婚那些事业务主线—人的维度重组推荐逛店铺.业务框架:类目list类目+属性list频道页大促聚合结果listComboShortcut…消费者标签重组找到店铺机器挖掘标签赞同标签消费目的达成产生标签和好友互动标签偏好语义分析+词库数据转换文本自发现店铺导购标签标签当中的问题标签的来源标签的属性词义标签的关系标签来源、分词问题□一元分词□二元分词□CRF分词夏季新款女装雪纺连衣裙夏季新款女装雪纺连衣裙夏季新款女装雪纺连衣裙BEBEBEBEBME标签中的短语、新词来源•互信息、聚合度、左右熵发现二元•前缀树发现长字符串模式序列标注问题隐马尔可夫模型(HiddenMarkovModel,HMM)最大熵模型(MaximumEntropyModel,MEM)条件随机场(conditionalrandomfields,CRF)均可以看做概率图模型的不同表现形式实体识别的标注问题标签间的关系手机套和手机外壳手机壳和Iphone4S手机壳共同的购买人群(协同过滤)…超薄和女士合并标签的结构化:类目、来源、变化、内容从属关联标签词语之间关系问题产品框架数据源标签系统搜索交易用户特征标题详情评价资讯专辑日记百科功能层:模型层:筛选剔出合并打标商品范围确定商品重合比例人群选择人群重合比例管理层:类目、来源、变化速度、内容…业务场景首页频道搜索场景、主题页List…其他文本标签问题•标签质量判定•标签排序、相关性展现•标签合并去重内容相关、提取问题U站内容推荐相似Query查询特定内容提取如何分析相关内容•人的行为•词之间相关性•句子、段落之间相关性同义词、近义词、词之间关系•基于统计•基于词法分析•基于行为句法分析□短语句法分析head-rule,lexicalize,grammar-basedun-lexicalize□依存句法分析memorybased,classifier-based,feature-verification语义推荐内容提取问题•关键词、中心词•特定场景地址、礼物分类打标问题分类打标问题t2t3D1D2D10D3D9D4D7D8D5D11D6Q单词向量化问题机器分类问题...C6C7C5C4C1C3CnC2d3d1dm词库建设小结•互联网环境下的语义•词库的构架和沉淀•基础相关算法文本技术相关介绍数据聚类、天然类目、类目团蔟谱系、层次聚类图片语义应用谢谢

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功