实用标准文案文档大全目录1.绪论..................................................................................................................21.1项目背景........................................................................................................21.2提出问题.................................................................................................22数据库仓库与数据集的概念介绍...................................................................22.1数据仓库..................................................................................................22.2数据集......................................................................................................23数据仓库...........................................................................................................33.1数据仓库的设计.....................................................................................33.1.1数据仓库的概念模型设计...........................................................33.1.2数据仓库的逻辑模型设计...........................................................33.2数据仓库的建立.....................................................................................33.2.1数据仓库数据集...........................................................................33.2.2建立维表.......................................................................................44.数据挖掘操作....................................................................................................44.1数据预处理..............................................................................................44.1.1描述性数据汇总...........................................................................44.2决策树......................................................................................................45、实验心得.......................................................................................................126、大总结...........................................................................................................12实用标准文案文档大全1.绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。1.2提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。2数据库仓库与数据集的概念介绍2.1数据仓库数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。2.2数据集数据集是指一种由数据所组成的集合。Dataset(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。实用标准文案文档大全3数据仓库3.1数据仓库的设计3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。3.1.2数据仓库的逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。3.2数据仓库的建立3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。实用标准文案文档大全3.2.2建立维表维是分析问题的角度,度量是要分析的问题。多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同不是随时间的推移变化,而是不断变大。维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。如果把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表中,这个主键字便被称作退化的维。创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当维事实表。星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所有的事实表都有一个与之相关的时间维表。4.数据挖掘操作4.1数据预处理4.1.1描述性数据汇总对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartilerange,IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。4.2决策树实用标准文案文档大全(1)读取文本数据使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加的节点以打开相应的对话框。如图1所示。图1单击紧挨“导入文件”框右边以省略号“...”标记的按钮,浏览到系统中的Clementine安装目录。打开目标文件目录,然后选择名为sales.xls的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。如图2所示。图2单击过滤选项,可以把用不到的信息给过滤掉。如图3所示。实用标准文案文档大全图3类型选项卡可帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。如图4所示。图4(2)添加表现在已载入数据文件,可以浏览一下某些记录的值。其中一个方法就是构建一个包含表节点的流。要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。如图5所示。实用标准文案文档大全图5双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。要模拟鼠标中键操作,请在使用鼠标时按下Alt键。如图6所示。图6要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。如图7所示。图7(3)创建分布图将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。选择商品名称作为要显示其分布的目标字段。然后,在对话框中单击实用标准文案文档大全执行。如图8所示。图8最终图表将有助于查看数据的“结构”。结果表明,商品300g壶瓶枣和400g沁州黄卖的最多。如图9所示。图9此外,还可以在“输出”选项卡中找到数据审核节点。如图10所示。实用标准文案文档大全图10添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。如图11所示。图11(4)创建散点图现在我们来看一下有哪些因素会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着重要的影响。所以创建一个关于商品名称和销售模式的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。如图12所示。图12实用标准文案文档大全在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击执行。如图13所示。图13此散点图清楚地显示商品在