数据挖掘的过程数据挖掘的一般过程可以分为三个阶段:数据准备、模式发现与结果表达,如图所示。原始数据库挖掘数据库知识ETL工具挖掘算法可视化技术数据准备模式发现结果表达模式数据库概述表及其相互间的联系建立ODBC数据源单表查询多表查询计算字段汇总查询3数据库定义数据库管理系统(DBMS)数据模型4所谓数据库就是存放在计算机/云服务器的、以一种合理的方法组织起来的、与公司或组织的业务活动和组织结构相对应的各种相关数据的集合,该集合中的数据可以为公司的各级经过授权的用户和信息系统所共享。数据库的这个定义具有以下三方面的含义:数据库是存在于计算机中的、与公司或组织的业务活动和组织结构相对应的各种相关数据的一个集合;存放在数据库中的数据是按一定的方式组织起来的,而不是杂乱无章地存放的;数据库是一个共享的信息资源,它可以被企业或组织中的多个经过授权的用户使用,也可以被与企业有关的各种信息系统使用。5数据库管理系统(DBMS)DBMS是位于用户与操作系统之间的一层数据管理软件,主要负责数据库的建立、插入、查询、删除、修改及各种数据控制功能。数据结构存放在数据库里的数据是某个公司、组织或部门的业务活动所涉及的各种数据,这些数据相互之间是有联系的,必须用一定的结构将其组织起来,在数据库中引入了数据结构来描述数据及它们之间的联系。常用的数据结构包括层次模型、网状模型;关系模型和面向对象模型。6表主键表与表之间的联系7关系数据库中的表是“二维表”,每个表保存着企业业务活动中所涉及的一个特定实体集(或者两个实体集之间的某种联系)的所有实例的各种属性值数据。8会员号姓名联系电话E-mail地址城市邮政编码密码级别00000001张晨021-65903818zhangchen@shufe.edu.cn国定路777弄行政楼202室上海200433******100000002王玲010-62754108wangling@pku.edu.cn北京大学人事部北京100871******100000003李莉021-62438210lili@yahoo.com.cn国定路600弄37号201室上海200433******100000004刘新021-55392225liuxin@hotmail.com新市南路999弄10号101室上海200433******100000005徐萍021-43712345xuping@fudan.edu.cn张杨路2230弄10号302室上海200135******200000006张氢0411-84713425zhangqing@hotmail.com东北财经大学会计学院大连116025******100000007杨杰021-76543657yangjie@yahoo.com.cn张杨路2238弄3号102室上海200135******100000008王鹏010-62751231wangpeng@gmail.com北京大学勺园三号楼301室北京100871******200000009杜伟021-45326788duwei@honeywell.com国定路580弄3号101室上海200433******100000010单风010-62751230shanfeng@gmail.com北京大学勺园三号楼202室北京100871******29商品号商品名称原价折扣价钻石价类别库存量100001会计学原理2014101200100002VB程序设计2819.6141300100003计算机应用302115150100004数据库原理20141012100005微观经济学3524.517.51200200001欧美唯美另类经典歌曲集10050402150200002班德瑞乐团轻音乐专辑643225220200003沼泽乐队:城市1816102400200004蓝沁传奇201511225200005莎拉.布莱曼-韦伯作品选302015218200006纽约之歌3318142100300001小学奥林匹克作文教程12017143300300002小学奥林匹克作文教程22017143150300003超星读书卡增强版10088833250300004新东方背单词428191531010在关系数据库的某些表中存在着其值能够唯一地确定一个记录的属性(或属性组),这样的属性(或属性组)称为表的主键。11订单号订购日期收货人付款方式号100000012012/7/10000000011100000022012/7/11000000022100000032012/7/11000000092100000042012/8/13000000071100000052012/8/14000000101100000062012/8/25000000083100000072012/8/26000000103100000082012/9/17000000061100000092012/9/18000000082100000102012/9/2100000005112订单号商品号订购数量销售价1000000110000151410000001100002119.6100000011000033211000000120000115010000001200002132100000021000012141000000210000451410000002100005124.510000002300004319100000062000012401000000620000212510000006300003283100000063000045151000000610000451010000006100005117.5…………13一对一联系一对多联系多对多联系14如果同一数据库中两个表的各个记录之间存在着一种一一对应的关系,亦即,每个表中的一个记录均(通过主键)与对方表中的一个记录相对应,那么这两个表存在着一对一的联系。15一对一联系及表的合并合并订单号订购日期收货人付款方式号订单号出库日期发货地发送费订单状态100000012012/7/10000000011100000012012/7/11北京8订单处理结束100000022012/7/11000000022100000022012/7/12上海8订单处理结束100000032012/7/11000000092100000032012/7/12上海5订单处理结束100000042012/8/13000000071100000042012/8/15北京5订单处理结束100000052012/8/14000000101100000052012/8/16北京8订单处理结束100000062012/8/25000000083100000062012/8/26上海5订单处理结束100000072012/8/26000000103100000072012/8/28上海8订单处理结束100000082012/9/17000000061100000082012/9/18北京5订单处理结束100000092012/9/18000000082100000092012/9/21上海5在途100000102012/9/21000000051100000102012/9/23北京5在途发货表订货表11订单表订单号订购日期收货人发送费出库日期发货地付款方式号订单状态100000012012/7/100000000182012/7/11北京1订单处理结束100000022012/7/110000000282012/7/12上海2订单处理结束100000032012/7/110000000952012/7/12上海2订单处理结束100000042012/8/130000000752012/8/15北京1订单处理结束100000052012/8/140000001082012/8/16北京1订单处理结束100000062012/8/250000000852012/8/26上海3订单处理结束100000072012/8/260000001082012/8/28上海3订单处理结束100000082012/9/170000000652012/9/18北京1订单处理结束100000092012/9/180000000852012/9/21上海2在途100000102012/9/210000000552012/9/23北京1在途16如果数据库的一个表中的一个记录与同一数据库的另一个表中的多个记录(包括0个)相对应,反过来,后一个表中的一个记录只与前一个表中的一个记录相对应,那么这两个表存在着一对多的联系。171∞会员号姓名联系电话E-mail地址城市邮政编码密码级别00000001张晨021-65903818zhangchen@shufe.edu.cn国定路777弄行政楼202室上海200433******100000002王玲010-62754108wangling@pku.edu.cn北京大学人事部北京100871******100000003李莉021-62438210lili@yahoo.com.cn国定路600弄37号201室上海200433******100000004刘新021-55392225liuxin@hotmail.com新市南路999弄10号101室上海200433******100000005徐萍021-43712345xuping@fudan.edu.cn张杨路2230弄10号302室上海200135******200000006张氢0411-84713425zhangqing@hotmail.com东北财经大学会计学院大连116025******100000007杨杰021-76543657yangjie@yahoo.com.cn张杨路2238弄3号102室上海200135******100000008王鹏010-62751231wangpeng@gmail.com北京大学勺园三号楼301室北京100871******200000009杜伟021-45326788duwei@honeywell.com国定路580弄3号101室上海200433******100000010单风010-62751230shanfeng@gmail.com北京大学勺园三号楼202室北京100871******2会员表订单号订购日期收货人发送费出库日期发货地付款方式号订单状态100000012012/7/100000000182012/7/11北京1订单处理结束100000022012/7/110000000282012/7/12上海2订单处理结束100000032012/7/110000000952012/7/12上海2订单处理结束100000042012/8/130000000752012/8/15北京1订单处理结束100000052012/8/140000001082012/8/16北京1订单处理结束100000062012/8/250000000852012/8/26上海3订单处理结束100000072012/8/260000001082012/8/28上海3订单处理结束100000082012/9/170000000652012/9/18北京1订单处理结束100000092012/9/180000000852012/9/21上海2在途100000102012/9/210000000552012/9/23北京1在途18在同一数据库的两个表中,如果每个表的一个记录都与对方表中的多个记录(包括0个)相对应,那么这两个表之间就存在着多对多的联系。19订单号订购日期收货人发送费出库日期发货地付款方式号订单状态商品号100000012012/7/100000000182012/7/11北京1订单处理结束100001100000012012/7/100000000182012/7/