电子商务中的商务智能本章学习目标:电子商务数据环境的特殊性;Web数据的各种分析;电子商务数据仓库的逻辑模型设计;电子商务数据仓库的ETL系统设计方法;数据挖掘在电子商务中的应用;电子商务中的商务智能•7.1电子商务的数据仓库开发•7.2电子商务数据仓库的逻辑模型•7.3电子商务数据仓库的ETL设计•7.4电子商务数据挖掘7.1电子商务的数据仓库开发7.1.1电子商务的数据环境分析点击流数据、E-mail、IP地址、交易记录、安全检查、电子金融数据1.电子商务数据环境Web服务器日志(WebServerLogs)、Cookie信息、广告服务器数据库(AdServerDatabase)、注册数据库(RegistrationDatabase)、商业应用数据库(CommerceApplicationDatabase)。2.Web服务器日志通用日志格式(CLF,CommonLogFormat)和扩展通用日志格式(ECLF,ExtendedCommonLogFormat)通用日志格式文件中主要包含七种元素:主机、识别、审核、时间、请求、状态和字节数。扩展通用日志格式文件除七种元素外,还增加了引用站点和用户代理两个元素。在服务器的日志文件中还包含文件名、服务时间、IP地址、服务器端口、进程ID、格式化时间、被请求的URL、服务器名称和Cookie等信息。与电子商务直接有关的后台应用程序数据库中的商品销售数据、商品发送数据、商品库存数据、客户基本信息等商务活动数据源也是智能型电子商务数据仓库的主要数据来源。7.1.2电子商务数据仓库项目规划首先需要定义项目的商业目标。要用智能型电子商务的商务词汇表示。即用“提高网站商品销售量”、“提高电子商务销售利润”、“提高网络促销策略响应率”来表示商务智能的最终目标。7.1.3电子商务数据仓库需求分析需求分析是电子商务数据仓库设计的基础了解在电子商务网站中可以用哪些数据来满足最终用户的决策要求。主要目标有:基于对需求和能满足的或不能满足的终端用户需求数据有更详尽的了解,重新定义项目的规模;确定项目开发的优先次序,对项目的规模、预算和时间安排基于这些优先次序做必要的调整;为了支持用户的决策信息需求,将网站上的任何变更用文挡的形式记录下来;创建一个描述关键性机遇的领域、分析信息需求以及数据来源的商务智能需求文挡,为项目今后阶段的工作制定详细工作计划。7.1.4电子商务数据仓库逻辑模型设计1.数据仓库的逻辑模型设计2.智能型电子商务应用开发3.逻辑模型文档设计7.1.5电子商务数据仓库物理模型设计⑴电子商务数据仓库的结构和基础开发⑵电子商务数据仓库的物理模型设计⑶电子商务数据仓库的应用开发⑷电子商务数据仓库的系统集成7.1.6电子商务数据仓库实现与部署7.2电子商务数据仓库的逻辑模型7.2.1营销的数据仓库模型演变销售事实产品促销地理位置时间7.2电子商务数据仓库的逻辑模型7.2.1营销的数据仓库模型演变用户活动/站点点击事实内容内部促销物理地理财政时间用户用户时间站点地理Web地理活动外部促销7.2.2客户维——用户维用户身份信息是用户的代理信息。可以分成两种属性,即用户代理类型和用户代理名字。其中,用户代理类型主要用来区分一次相应的网页点击是真实用户行为还是索引机器人的行为。用户代理名字属性给出用户浏览器或者索引机器人的名字以及版本号。用户维可以包括这样一些属性:用户标识符、用户代理类型、用户代理名、用户类型、性别、注册用户名、电子邮件地址、消费人群、人口统计信息、最后购买时间戳、信用概要、电话号码和地址等。用户维的属性是可选的。用户类型和性别可以在会话过程或者用户注册信息中获取。消费人群和人口统计信息由许多描述用户的字段组成,这些信息也可能来自第三方的市场调查公司。如果站点支持在线购物,那么用户的最后一次购物时间、信用概要、电话、地址等都可以从用户所提供的信息和信用卡供应商处获得。7.2.3时间维——财政时间维和用户时间维财政时间维分成:财政日期表和财政时刻表。财政日期维表中可以包含:候选财政日期关键字、数据类型、季节、日期时间戳、财政年、财政月、财政周、财政日数、日名、周天数、月天数和日类型等。财政时刻表中可以包含:候选财政时间维关键字、时间类型、一天的时间段、SQL时间戳和GMT时分秒。用户日期和用户时刻表是从用户的观点来分析用户行为的,用户日期和用户时刻是基于一个特定用户日历。用户时间维和财政时间维一样,同样被分成日期维表和时刻维表。用户日期维表包含属性同企业的日期维表类似。只是增加了日期的用户季节7.2.4地理位置维——物理地理、Web地理和站点地理维考虑用户的物理地理位置、用户到达企业站点的途径和站点地理位置,这样就至少需要三个地理位置维1.物理地理维物理地理维表中的属性一般可以包含:用惟一整数标识符表示的候选物理地理关键字;国家、州或省份、乡村或城市、街道、门牌号、邮政编码或邮递区号,地理位置是家庭、公寓、商务、政府部门等场所类型。2.Web地理维属性主机地理维表和引用者地理维表主机地理维的主要属性包含:候选主机地理关键字;主机Ip地址;主机名;域名;主机所在国家、所在州或省份、所在城市等。引用者地理维属性包含:标识符;引用URL;引用页面标识符ID;查询字符串;引用域;已引用URL;已引用页面ID。7.2.4地理位置维——物理地理、Web地理和站点地理维3.站点地理维属性站点地理维属性主要包括:表示候选站点地理ID的惟一整数标识符;页面URL;惟一的页面标识符,一个独立的页面标识符表示与页面相关联的动态页面URL;父URL,例如,mysite/index.html;总页面字节大小,包括所有组件项,如页面转载的图像或脚本;页面版本号;页面最后修改日期;页面主要用途,例如,主页面、搜索、信息、购物篮、产品说明和下载等。7.2.5商品维——内容和活动维3.站点地理维属性站点地理维属性主要包括:表示候选站点地理ID的惟一整数标识符;页面URL;惟一的页面标识符,一个独立的页面标识符表示与页面相关联的动态页面URL;父URL,例如,mysite/index.html;总页面字节大小,包括所有组件项,如页面转载的图像或脚本;页面版本号;页面最后修改日期;页面主要用途,例如,主页面、搜索、信息、购物篮、产品说明和下载等。7.2.6促销维——内部促销和外部促销维分成内部促销维和外部促销维1.内部促销维属性有:表示内部促销ID的惟一整数标识符;内部促销URL,如,mysite/InternetSpecial4.html等;点击URL;内部促销类型,如,内部广告、附属链接、外部文章链接和销售等;内部促销版本;用SKU或服务码表示的内部促销产品或服务码;内部促销品牌;内部促销目录等。7.2.6促销维——内部促销和外部促销维2.外部促销维属性:表示候选外部促销关键字的惟一整数标识符;包含查询串URL完整文本的外部促销URL;外部促销引擎/赞助商;外部促销格式,例如,标语、擎天柱、弹出式广告链接等;外部促销版本;用SKU或服务码表示的外部促销产品或服务;外部促销品牌;外部促销目录;7.2.7电子商务数据仓库模型的事实表设计由与维表相关联的外键以及网页点击加载时间、点击接收时间、点击完成时间、点击传输字节和点击HTTP事务状态码等5个度量浏览者活动状况的事实组成7.2.7电子商务数据仓库模型的事实表设计内容ID内容标识符内容URL内容类型内容用途相关页面内容大小……内部促销ID内部促销URL内部促销类型内部促销版本内部促销码内部促销品牌内部促销目录用户时间ID时间类型时间段SQL时间戳GMT站点地理ID页面URL页面标识符父URL总页面字节……引用者ID引用URL引用页面ID查询字符串已引用URL……网页点击加载时间点击接收时间点击完成时间点击传输字节HTTP事务状态码用户ID财政日期ID物理地理ID内容ID……用户ID用户代理类型用户代理名用户类型性别注册用户名电子邮件地址消费人群……财政日期ID数据类型季节日期时间戳财政年财政月财政日……物理地理ID国家州或省份乡村或镇区、城市街道门牌号……主机地理ID域名国家州、省、市……活动ID活动标识符活动类型活动组外部促销ID外部促销URL外部促销引擎/赞助商外部促销格式外部促销版本外部促销产品/服务码外部促销品牌外部促销目录图7.3电子商务数据仓库事实表及维表7.3电子商务数据仓库的ETL设计7.3.1电子商务数据仓库的ETL环境人力资源数据库预算计划库存管理库存数据库混合报表与报告系统订单管理购买可接受的账户可支付的账户通用分类账ERP数据库呼叫中心数据库自动买卖买卖数据库自动销售人员购买力数据库人力资源管理税务系统固定资产呼叫中心报告系统7.3电子商务数据仓库的ETL设计混合报表与报告系统ERP数据库自动销售人员购买力数据库Web应用服务器和数据库备份Web服务器代理服务器防火墙商业ISP因特网用户身份服务在线广告服务付费和金融服务内容缓存服务搜索引擎和服务用户/参与者ISP商业伙伴系统用户7.3电子商务数据仓库的ETL设计7.3.2ETL的体系结构点击流数据点击流抽取、转换点击流分析点击流分析点击流分析点击流分析点击流分析其他数据源数据抽取转换阶段区域加载数据准备区域工作存储区坏数据存储发送模式仓库加载仓库数据库商业应用数据库创建维创建事实归档聚合索引确认数据仓库数据数据仓库过程管理7.3.3建立ETL系统1.数据分析2.使Web站点适合电子商务产生的点击流3.创建高层ETL设计和体系结构4.设计特定的点击流组件7.3.3建立ETL系统过滤记录(可选)用户辨认页面辨认过滤记录(可选)会话匹配IP地址解析分析事实记录Web地理维参照表主机表Web服务维维处理会话维内容维页面维活动维用户维用户时间维物理地理维7.3.3建立ETL系统5.设计和建立维表6.设计和建立事实表ETL组件7.建立数据加载机制和整合ETL程序8.为数据管理建立支持7.4电子商务数据挖掘7.4.1Web数据挖掘技术1.Web的特点•Web的庞大性。•Web的动态性。•Web的异构性。•非结构化的数据结构。•形形色色的用户群体7.4电子商务数据挖掘2.Web内容挖掘⑴基于文本信息的挖掘和通常的平面文本挖掘比较类似⑵基于多媒体信息的挖掘基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘。7.4电子商务数据挖掘3.Web结构挖掘从结构挖掘有助于用户找到相关主题的权威站点,并可以指向众多权威站点的相关主题站点。Hub页面提供了指向权威页面的链接集合。7.4电子商务数据挖掘4.Web使用记录的挖掘通过挖掘Web日志文件和相关数据,来发现用户访问Web页面的模式。一般的访问模式追踪和个性化的使用纪录追踪Web使用记录的挖掘要经过数据预处理阶段、模式识别阶段、模式分析阶段三个阶段。7.4电子商务数据挖掘5.Web数据挖掘的意义⑴有助于网络资源的开发和利用⑵有利于提高网络服务水平⑶是构建科学的决策支持系统的需要7.4.2Web数据挖掘在电子商务中的应用1.网络营销2.客户的聚类分析3.客户的个性化服务4.挖掘潜在的客户5.挽留老客户7.4.3数据挖掘在网站设计、管理中的应用1.网站设计中的数据挖掘2.序列模式发现3.在电子邮件管理中的应用4.在搜索引擎中的应用7.4.4数据挖掘在网络广告中的应用1.网络广告的有效性分析2.网络广告的链接分析3.网络广告的关联匹配4.网络广告的精准发送