记忆基础理解Memory

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章記憶基礎理解(Memory-basedreasoning,MBR)定義:用人工智慧的方式,以現有資料庫對新資料進行分類與預測。記憶基礎理解(Memory-basedreasoning,MBR)記憶基礎理解記憶基礎理解可以應用的行業:●詐欺案件判斷。●顧客反應預測。●醫療服務追蹤。●問卷資料分類。如何進行(學習階段)如何進行(預測階段)解決問題的三個主題1.選擇適當的歷史資料關鍵:資料的範圍必須能涵蓋原始資料抽樣方法:2.找出具效率的方式代表歷史資料減少歷史資料庫的記錄數量(圖9.3、9.4)3.設定距離函數、組合函數、和鄰近資料的組數(K值)案例研究–新聞報導分類類別編碼數文件數總出現數政府283,9264,200工業11238,30857,430市場938,56242,058產品212,2422,523地區12147,083116,358主題7041,90252,751案例研究–新聞報導分類1.選擇測試資料組:49,652則新聞稿,每一則平均2700字與8個編碼2.設定距離函數利用一個叫“相關回饋(RelevanceFeedback)”的測試標準,比對任何文件的相似度(參見課本);B與A的距離:d(A,B)=1-Score(A,B)/Score(A,A)案例研究–新聞報導分類3.設定組合函數為未分類的新聞找出最相似者相似者距離權重編碼10.0760.924FE,CA,CO20.3460.654FE,JA,CA30.3690.631FE,JA,MI40.3930.607FE,JA,CA案例研究–新聞報導分類3.設定組合函數為未分類的新聞評分(門檻值為1)編碼1234評分CA0.9240.65400.6072.185CO0.9240000.924FE0.9240.6540.6310.6072.185JA00.6540.6310.6071.892MI000.63100.631案例研究–新聞報導分類4.設定鄰近資料組數•1–11組•若要配置在單一編碼,則選擇較少組數較合適案例研究–新聞報導分類5.結果(200則,半數同意才合格)案例研究–新聞報導分類MBR編碼正確編碼反查準度A,B,C,DA,B,C,D4/44/4A,BA,B,C,D2/42/2A,B,C,D,E,F,G,HA,B,C,D4/44/8E,FA,B,C,D0/40/2A,B,E,FA,B,C,D2/42/4測量評分的效用:反查(Recall)與準度(Precision)距離函數關鍵特性:1.明確界定(Well-defined):d(A,B)=02.區辨性(Identity):d(A,A)=03.可互換性(Commutability):d(A,B)=d(B,A)4.三角不等式(TriangleInequality):d(A,C)=d(A,B)+d(B,C)絕對值:|A-B|;平方差:(A-B)^2;標準化絕對值:|A-B|/(最大差值)組合函數民主方式(投票方式)讓最近似的K個鄰近資料以「投票」的方式選出答案。加權投票著重在“加權”最適用問題:類別變數加權對於結果和信心水準只有小幅度影響,在部份鄰近資料比較近,而部份比較遠的情況下,加權才會有較大的效果。加入迴歸分析例子一次建立一個單變數的距離函數紀錄編號性別年齡薪水1F2719,0002M5164,0003M52105,0004F3355,0005M4545,000例子例子採用標準化絕對值與將三種距離加總年齡2751523345270.961.24.7251.960.04.72.24521.040.76.2833.24.72.760.4845.72.24.28.480例子同理也可對薪水做距離矩陣加總:dsum(A,B)=ds(A,B)+do(A,B)+di(A,B)標準化加總:dsum(A,B)/max{dsum(A,B)}歐幾里德距離:SQTR(ds(A,B)^2+do(A,B)^2+di(A,B)^2)性別FMF01M10例子每一點在三種距離函數下的最近似組合d加總d標準加總d歐幾里德距離1145231452314523225341253412534133254132541325414415234152341525523415234152341例子加入新顧客紀錄編號性別年齡薪水5F45100,00012345相似者d加總1.6621.6591.3381.0031.64043521d標準加總0.5540.5530.4460.3340.54743521d歐幾里德距離0.8711.0521.2510.494141523例子使用MBR與投票來判斷新顧客是否會流失與信心水準相似者相似者流失狀況k=1k=2k=3k=4k=5d加總43521yynynyyyyyd歐幾里德距離41523ynnyyy?n?yk=1k=2k=3k=4k=5d加總y,100%y,100%y,67%y,75%y,60%d歐幾里德距離y,100%y,50%n,67%y,50%y,60%例子使用MBR與加權來判斷新顧客是否會流失預測相似者相似者流失狀況k=1k=2k=3k=4k=5d標準加總43521yynyn.74901.44101.4410.6472.0850.6472.0851.290d歐幾里德距離41523ynnyy0.66900.6690.5340.6691.0621.1571.0621.6011.062k=1k=2k=3k=4k=5d標準加總y,100%y,100%y,69%y,76%y,62%d歐幾里德距離y,100%y,54%n,61%y,52%y,60%組合函數加入迴歸分析處理數值或順序變數最適用問題:連續數值迴歸分析:將數據去適配到某些已知的函數,然後運用函數推算出未知值。實例:以通貨膨脹率推算股市漲跌(圖9.8,圖9.9)其他距離函數其他資料型態的應用五位數郵遞區號dzip(A,B)=0前3碼一樣dzip(A,B)=1前3碼不一樣dzip-refined(A,B)=0.0dzip-refined(A,B)=0.1ex.“20008”“20015”dzip-refined(A,B)=0.5ex.“95050”“98125”dzip-refined(A,B)=1.0ex.“02138”“90024”如何獲得最佳結果選擇正確的訓練資料組增加罕見分類項的資料數量距離函數鄰近資料數量(k值)的考量無一定數量的限制組合函數類別性資料加權投票連續性數值結合迴歸分析與最似鄰近方法MBR的優點結論容易推測能運用在任何資料型態、甚至是非關聯式資料上在任何數量的變數下都能運作良好訓練資料組容易建立MBR的缺點在預測階段上運算作業繁複訓練資料組需要大量記錄高度依賴距離函數和組合函數

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功