数据仓库1.定义:一个面向主题的、集成的、随时间变化的、不可更新的数据的集合,用于支持管理层的决策过程。2.特性(四点):a)面向主题性----这是数据仓库中数据组织的基本原则。b)数据集成性----数据源的多样性。c)数据的时变性----数据的收集要随时间而变化。d)数据的不可更新性----数据仓库中的数据不可更新。3.与数据库的区别:数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其是数据的存储容器这一点而言,与数据库并没有本质区别。将分析型数据与事务型数据相互分离,单独存放,形成了所谓的数据仓库。在更多时候,我们可以将数据仓库作为一个数据库应用系统来看待。数据库和数据仓库是数据处理的不同侧重面。4.体系结构(四大块):a)数据获取(数据源,ETL,准备区)b)数据存储(仓库,集市,元数据)c)信息传递(OLAP和DM服务器,OLAP,报表,查询,可视化展现,数据挖掘)d)数据管理和控制(元数据,元数据管理,数据仓库的管理)5.数据组织:a)星型模型:数据仓库最常用的模式,包括:i.没有冗余的中心表---事实表ii.一组小的附属表---维表,每维一个;维表围绕着事实表,维表像星星向外四射b)雪花模型c)实时性做模型6.OLAP目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合7.OLAP主要操作a)切片与切块:在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。b)下钻:钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应c)旋转:通过旋转可以得到不同视角的数据8.与数据挖掘的关系:数据仓库是一种组织数据的方法,将多年积累的不同数据源整合成一个有组织便于分析的结构化数据环境;数据挖掘是分析数据方法,从数据中找出有用的信息、规律、知识。它们是数据分析等的基础。9.数据挖掘的定义:是从数据大量积累,数据丰富,而知识匮乏,希望从数据中发现知识的方法。10.数据预处理的内容:解决缺值,去掉噪声、数据不完整、不一致、冗余、孤立点,对不同数据源整合,需要对数据进行清理。关联规则1.支持度:某类项目集数占数据库中的比例2.置信度:同时存在项目集A和B占存在项目集A的比例3.频繁项目集:某些项目集的支持度超过定义的最小支持度4.若s%的事务包含XUY,则关联规则X-Y支持率为s%。若包含X的事务的c%也包含Y,则关联规则X-Y的置信度为c%5.强关联规则:关联规则的支持率与置信度分别大于或等于用户指定的最小支持率与最小置信率6.K-频繁项目集:在数据库D中一个k项目集数目超过定义的最小支持度,用Lk表示7.Apriori性质:频繁项集的非空子集都是频繁的项集8.不足:a)多次扫描数据库,I/O负担太重b)庞大的候选集文本分类1.文本分类的定义:根据文档的属性或内容,将大量的文档轨道一个或多个类别的过程2.分类的定义:给一个样本按照给定分类体系用一定的方法将其归于某类3.分类步骤:人工神经网络1.信息熵:自信息的信息期望,用-P(x)*log2P(x)表示2.多层前馈全链接神经网络结构:前馈是指信号向前传播,输入-隐层-输出。a)输入层由多个输入单元组成,每个单元为一个节点,输入节点为线性输出,节点为样本的一个属性。b)隐藏层可谓多层,一般一层,输入为输入层的输出加权和偏值。c)输出层:与隐藏层类似。d)全连接:输入层每个输出都与隐藏层连接。e)只要给顶足够多的隐藏单元,多层前馈神经网络可以逼近任何函数。回归1.线性回归:用直线对数据建模,变量X,Y呈线性关系Y=a+bX,a,b为回归系数,一般用最小二乘法来求解。聚类1.概念:聚类是人类学会区分事物的能力。对一组对象按其特点分成几个雷,每类是一些对象集合,类内各对象相似度高,类间对象差别大。是无指导学习。2.评价标准:a)高的簇内相似性b)低的簇间相似性3.数据类型:a)数据矩阵:对象-变量结构,n个对象,p个变量(属性)b)相异度矩阵:对象-对象结构,n个对象间的相异4.处理方法:a)划分方法:k-均值算法b)层次方法c)基于密度的方法d)基于网格的方法e)基于模型的方法5.