基于Web技术的数据仓储研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于Web技术的数据仓储研究作者:赵洋学位授予单位:大连海事大学参考文献(40条)1.孙翔鹏.张国枢基于Web方式数据仓库的架构研究[期刊论文]-安徽理工大学学报(自然科学版)2003(2)2.陈文伟决策支持系统及其开发20023.张开松基于Web技术的数据仓库研究与设计[学位论文]20054.查看详情5.wHInmon.RHTerdeman电子商务中的数据仓库技术20046.黄健青淘宝网站点击流20057.MarkSweiger.MarkRMadsenC1ickstreamDataWarehousing20048.张维明.邓苏数据仓库原理与应用20039.田新锋.NET技术在航空电子商务系统中的应用研究与实现[学位论文]硕士200510.韩明华基于Web方式的数据仓库系统的研究与应用200511.童毕建基于点击流技术的个性化信息服务应用研究[学位论文]硕士200612.张懿数据仓库在电子商城系统中的应用研究[学位论文]硕士200513.尚夏数据仓库系统的理论研究与实现[学位论文]硕士200514.王玉珍基于电子商务的Web挖掘技术研究[期刊论文]-北京电子科技学院学报2005(4)15.冯凌.林杰.雷星晖Web日志数据挖掘模型研究2005(08)16.周亮面向电子商务的数据挖掘系统的研究与设计[学位论文]200517.岳修志图书馆点击流数据仓库研究[期刊论文]-情报科学2005(6)18.邹山立.卜淮原基于Web和数据仓库技术的决策支持系统2000(04)19.王学锋开发WEB应用时EJB的取舍[期刊论文]-长沙民政职业技术学院学报2004(1)20.郭春梅互联网环境下电子商务数据仓库技术的研究[学位论文]硕士200521.郭训报Web日志数据预处理及多维建模研究[学位论文]硕士200522.邱江涛基于SQLServerAnalysisService的点击流数据仓库研究[学位论文]硕士200523.杨文忠.彭曙蓉.章兢一种Web访问序列挖掘算法在网站设计中的应用研究[期刊论文]-计算机工程与科学2006(11)24.池太崴数据仓库机构设计与实施200525.ClaudiaImhoff.NicholasGalemmo.于戈数据仓库设计200426.TAlanKeanhey.StephenGEickVisualPathAnalysis200227.OlfaNasraoui.CesarCardonaUribe.CarlosRojasCoronelTECNO-STREAMS:TrackingEvolvingClustersinNoisyDataStreamswithaScalableImmuneSystemLearningModel200328.I-HsienTing.CharisKimble.DanielKudenkoUBBMining:FindingUnexpectedBrowsingBehaviourinClickstreamDatatoImproveaWebSite'sDesign200529.ZohraBellahseneSchemaEvolutioninDataWarehouses2002(03)30.JasonMizher.MargaretHDunham.LinLuScalabilityofOAT[NationalScienceFoundationunderGrantNo.IIS-0208741]200531.Miguel-AngelSiciliaObservingWebUsers:ConjecturingandRefutationonPartialEvidence200332.AlokChaturvedi.SubhajyotiBandyopadhyayEstablishingaFrameworkForAnalyzingMarketPowerinElectronicCommerce:AnEmpiricalStudy200133.JiaHu.NingZhongClickstreamLogAcquisitionwithWebFarming200534.XiaohuaHu.NickCerconeDataMiningviaDiscretization,GeneralizaionandRoughSetFeatureSelection1999(01)35.XuanFZhaAweb-enabledopendatabasesystemfordesignandmanufacturingofmicro-electro-mechanicalsystems(MEMS)200436.XinJin.BamshadMobasher.YanzanZhouAWebRecommendationSystemBasedonMaximumEntropy200537.易明.饶洋辉基于点击流数据的用户近期兴趣视图生成方法2006(06)38.杜文华基于点击流技术的个性化信息服务研究[期刊论文]-情报杂志2006(10)39.张波.巫莉莉.周敏基于Web使用挖掘的用户行为分析[期刊论文]-计算机科学2006(8)40.饶洋辉.张大斌基于点击流数据的电子务企业客户识别研究[期刊论文]-管理科学2006(4)相似文献(10条)1.学位论文鲜海网站访问点击流分析与基于SSIS的ETL设计实现2008你真的了解自己的网站吗?每天有多少人访问您的网站?现在有谁正在您的网站上?他们做了什么?他们从何而来?搜索引擎为您带来多少点击?访问者搜索的关键词是什么?您的哪个栏目哪个网页更受欢迎?这些问题的解决就是本文的目的,其手段是通过数据仓库的形式,因为创建数据仓库作为企业管理决策支持系统的基础已得到越来越多企业领导者的认同,也是企业经营管理决策与信息化结合的趋势所在。传统数据仓库是针对某个主题,对传统操作型数据库中的数据进行抽取、清洗和转换,加载到数据仓库中,形成多维数据集。决策者可通过OLAP(在线分析处理)或数据挖掘工具对从不知晓的企业运营的内在知识进行挖掘,挖掘隐含在内部的商业知识、商业模式,或针对企业以往发展,探索成功与失败的原因。点击流数据仓库的数据来源与一般数据仓库不同,来自点击流数据,通过收集、整理、转换这些数据,建立针对Web点击信息的各种维度,进而分析网站用户的行为并最终探索导致这些行为的内在原因是点击流数据仓库的建设初衷。通过点击流数据仓库将描述用户行为的数据转为决策者可以利用的有效信息,为网站经营者提供决策支持。通常,Web分析工具能提供一些有利于分析网站基本流量和访问模式的概要级信息,了解网站的基本运行状况。但要探究导致网站用户行为的内在因素或其他一些商务问题时,Web分析工具则显得力不从心。点击流数据仓库的建立完全遵从传统数据仓库建立的原则,其优势源于点击流数据是一种真正改进了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓库具有其他方式或工具无法比拟的优势。首先,点击流数据仓库能够更好地组织和管理点击流数据,能描绘Web用户完整的行为视图;其次点击流数据仓库中的数据通常经过抽取、转换和清洗,因而在数据仓库上进行点击流数据分析可免去许多数据预处理的工作;点击流数据仓库中集成了大量的历史数据,而对用户行为分析的大多数问题也与时间有关,因此,借助点击流数据仓库进行点击流分析更利于理解用户的行为。同时,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商业智能系统是建立在数据仓库、OLAP(联机分析)和数据挖掘等技术的基础之上,通过收集、整理和分析企业内外部的各种数据,为企业管理层提供科学的决策依据。而MicrosoftSQLServer2005是用于大规模联机事务处理(OLTP)、数据仓库和电子商务应用的数据库和数据分析平台。在商业智能方面SQLServer2005提供了三大服务和一个工具来实现系统的整合。三大服务是SQLServerAnalysisServices(SSAS分析服务)、SQLServerIntegrationServices(SSIS集成服务)、SQLServerReportingServices(SSRS报表服务)和一个工具是SQLServerBusillessIntelligenceDevelopmentStudio(BIDS)。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是OLTP系统和OLAP系统之间的桥梁,是数据从源系统流入数据仓库的通道。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关系到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。ETL的实现有多种方法,SQLServer2005的SSIS服务提供了较为完好的ETL解决方案。因此,应用点击流数据仓库对网站访问进行统计分析,在ETL数据加载方面使用SQLServer2005的SSIS集成服务,这也是本文主要的应用设计。主要内容章节安排如下:第一章绪论部分。主要介绍课题的研究背景,概述课题的研究意义,目的和实际价值。主要针对网站访问点击流分析,深入挖掘客户访问信息,全面掌握网站运营情况。举例分析国内外产品的研究及应用情况,指出课题的主要研究内容。第二章商业智能的技术构成与点击流数据仓库部分。介绍商业智能、点击流数据仓库的定义及相关概念,并对SQL,Server2005实现BI的体系结构进行了解,分析SSIS设计流程,了解SSIS的典型应用。第三章Web服务器日志与点击流数据源部分。主要对Web服务器日志文件格式进行分析,研究日志文件与点击流数据源的关系。第四章数据预处理和基本维度数据加载部分。主要分析对W3C日志文件进行预处理的方法、URL的编码及解码实现和在后面数据仓库中用到的基本维度如时间、操作系统、浏览器及地区维度的数据加载;其中,主要解决IP地址到地区维度的映射。第五章数据仓库建模及ETL设计实现部分。主要对点击流数据仓库的建模和基于SSIS的ETL的设计实现,其中提出了在数据仓库建模中的一些建议及SSIS性能优化的方式。第六章网站日志分析与展现部分。主要是利用AnalysisServices创建多维数据集,部署多维数据集到AnalysisServices数据库;再利用ProClarityDesktopProfessional和Excel2007来完成BI前端展现。第七章总结与展望。主要对对本文的研究工作进行概括和总结。本文主要的亮点主要解决了IP地址到地区维度、接入商维度的映射,借助接入商分析功能,可以了解网站访问者中各接入商的比例,从而确定所需要设置的镜像服务器的比例。能够通过深入挖掘客户访问信息,全面掌握网站运营情况。关键词:点击流;数据仓库;Web;服务器日志分析;BI;商业智能;ETL;解决;方案;SSIS;集成服务;OLAP;前端展现2.期刊论文陆琦.潘伟.刘艳玲点击流数据仓库中ETL子系统的应用研究-硅谷2009,(7)ETL(Exraction,Transformation,Load,简称ETL)作为数据仓库系统的关键子系统,完成数据抽取、清洗、转换和加载的工作,是构建数据仓库的重要环节,评估数据仓库效率和性能的重要指标,在介绍点击流数据仓库(clickstreamdatawarehouse,简称CDW)的基础上,重点研究了基于CDW的ETL子系统的重要性,位置及其结构和设计方案.3.学位论文甘泉基于数据仓库的Web点击流的研究2007Web网站每天都产生大量的数据,并且随着网络信息量的增大,在很多领域传统的数据库存储方式已经满足不了客户的需要了,那么随之而来的就是数据仓库的兴起。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库与数据库的不同之处在于数据库系统面向事务处理,而数据仓库系统面向

1 / 76
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功