数据挖掘DataMining1第一部DataMining的觀念................错误!未定义书签。第一章何謂DataMining........................................................错误!未定义书签。第二章DataMining運用的理論與實際應用功能................错误!未定义书签。第三章DataMining與統計分析有何不同............................错误!未定义书签。第四章完整的DataMining有哪些步驟...............................错误!未定义书签。第五章CRISP-DM..................................................................错误!未定义书签。第六章DataMining、DataWarehousing、OLAP三者關係為何错误!未定义书签。第七章DataMining在CRM中扮演的角色為何.................错误!未定义书签。第八章DataMining與WebMining有何不同....................错误!未定义书签。第九章DataMining的功能...................................................错误!未定义书签。第十章DataMining應用於各領域的情形............................错误!未定义书签。第十一章DataMining的分析工具........................................错误!未定义书签。第二部多變量分析........................错误!未定义书签。第一章主成分分析(PrincipalComponentAnalysis)..............错误!未定义书签。第二章因素分析(FactorAnalysis).........................................错误!未定义书签。第三章判別分析法(DiscriminantAnalysis)...........................错误!未定义书签。第四章集群分析法(ClusterAnalysis)....................................错误!未定义书签。第五章典型相關分析(CanonicalCorrelationAnalysis)........错误!未定义书签。第六章路徑分析(PathAnalysis).............................................错误!未定义书签。第七章迴歸分析.....................................................................错误!未定义书签。第一節何謂迴歸分析.....................................................错误!未定义书签。第二節簡單線性迴歸模式.............................................错误!未定义书签。第三節羅吉斯迴歸模式(LogisticRegression)...............错误!未定义书签。第三部改良的DataMining理論技術........错误!未定义书签。第一章類神經網路(ArtificialNeuralNetwork,ANN)..........错误!未定义书签。第二章決策樹(ArtificialNeuralNetwork,ANN)...................错误!未定义书签。第一節卡方自動互動檢視法(CHAID)............................错误!未定义书签。第二節分類與迴歸樹(CART)...........................................错误!未定义书签。第三章MachineLearning........................................................错误!未定义书签。第一節SupportVectorMachine(SVM)..................................错误!未定义书签。第二節NaiveBayesian............................................................错误!未定义书签。第三節K-NearestNeighbors(KNN).......................................错误!未定义书签。2第四節MARSplines(MARS).................................................错误!未定义书签。第一部DataMining的观念第一章何谓DataMiningDataMining是指找寻隐藏在数据中的讯息,如趋势(Trend)、特征(Pattern)及相关性(Relationship)的过程,也就是从数据中发掘信息或知识(有人称为KnowledgeDiscoveryinDatabases,KDD),也有人称为「数据考古学」(DataArchaeology)、「数据样型分析」(DataPatternAnalysis)或「功能相依分析」(FunctionalDependencyAnalysis),目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项增加各企业潜能的重要指标。此领域蓬勃发展的原因:现代的企业体经常搜集了大量数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。如果能透过数据发掘技术,从巨量的数据库中,发掘出不同的信息与知识出来,作为决策支持之用,必能产生企业的竞争优势。关于DataMining乐观的说法BerryandLinoff(1997)分析报告给你后见之明(hindsight)统计分析给你先机(foresight)DataMining给你识见(insight)这三者都是在既有的数据上做分析,在概念上应该并无轩轾,差别只是手上的数据大小与性质。所以,方法不同才有定义的不同。负面的定义Friedman,J.(1997)3Dataminingisacommercialenterprisethatseekstominetheminers.中肯的说法Hand,D.J.,Blunt,G.,Kelly,M.G.andAdams,N.M.Dataminingistheprocessofseekinginterestingorvaluableinformationinlargedatabases.DataMining可说会合了以下六种领域:●Databasesystems,DataWarehouses,OLAP●Machinelearning●Statisticalanddataanalysismethods●Visualization●Mathematicalprogramming●Highperformancecomputing第二章DataMining运用的理论与实际应用功能类别项目摘要分类区隔类Classification根据一些变量的数值做计算,再依照结果作分类。用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。Clustering将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。与Classification不同的是,分析前并不知道会以何种方式或根据来分类,所以必须要配合专业领域知识来解读这些分群的意义。理论技术传统技术1.因素分析(FactorAnalysis)─精简变量4(统计分析)2.判别分析(DiscriminantAnalysis)─分类3.分群分析(ClusterAnalysis)─区隔群体改良技术决策树(DecisionTree)─用树枝状展现数据受各变量的影响情形之预测模型,根据对目标变量产生之效应的不同而建构分类的规则。一般多运用在对顾客数据的区隔分析上。常用分类方法为CART(ClassificationandRegressionTrees)及CHAID(Chi-SquareAutomaticInteractionDetector)两种。推算预测类Regression使用一系列的现有数值来预测一个连续数值的可能值。可利用LogisticRegression来预测类别变量。Time-series用现有的数值来预测未来的数值。与Regression不同的是,Time-Series所分析的数值都与时间有关。理论技术传统技术(统计分析)1.Regression─连续变量2.LogisticRegression─类别变量3.Time-Series改良技术类神经网络(NeuralNetwork)─仿真人脑思考结构的数据分析模式,由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。与传统回归分析相比:好处:在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出;缺点:分析过程为一黑盒子,故常无法以可读之模型格式展现,每阶段的加权与转换亦不明确。类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。序列规则类Association找出在某一事件或是数据中会同时出现的东西─如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。SequenceDiscoverySequenceDiscovery与Association不同的是,SequenceDiscovery事件的相关是以时间因素来作区隔。5例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%。理论技术传统技术(统计分析)缺乏改良技术规则归纳法─这是一种由一连串的「如果…/则…(If/Then)」之逻辑规则对数据进行细分的技术,在实际运用时如何界定规则为有效是最大的问题,通常需先将数据中发生数太少的项目先剔除,以避免产生无意义的逻辑规则。第三章DataMining与统计分析有何不同DataMining所使用的技术如CART、CHAID或模糊计算等等理论方法,都是由统计学者根据统计理论所发展衍生,有相当大的比重是由高等统计学中的多变量分析所支撑。DataMiningStatistics处理大量数据1,000,000,000rows,3,000columns处理大量数据10,000rows,20columnsHappenstancedataSystematicallygathereddataWhysample?WehavealargeparallelcomputerSample--weevengeterrorestimates!!PowerPointshowsOverheadfoilsReasonablePriceforSoftware:$2,000,000ReasonablePriceforSoftware:$79.99Niceplaceforameeting:MauiinJanuaryNiceplaceforameeting:DallasinAugust企业末端者使用统计学家检测用无须太专业的统计背景需要专业的统计背景从大型数据库抓取所需数据并使用专属计算机分析软件,更符合企业需求6第四章完整的DataMining有哪些步