关联规则挖掘——以仲景方配伍规律挖掘为例(3)分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关联规则挖掘——以仲景方配伍规律挖掘为例杨雪梅博士中医证研究基地yxm_wj@sina.com目录解决的问题关联规则相关理论基础SPSSCLEMENTINE中实现的关联规则挖掘算法案例:仲景方配伍规律挖掘√解决的问题——关联购物篮问题:顾客购买了牛奶后,购买面包的可能性有多大药性规律问题:是否酸味的药常入肝经?比例是多少?如果具有酸味,那么该药入肝经的比例会比入肝经药占全部药物的比例提升多少?处方问题:**专家处方中开出生姜*桂枝*白芍三味药用于治疗寒证的次数有多少?比例有多少?专家处方中开出生姜*桂枝*白芍三味药用于治疗寒证的比例与所治疗病证中寒证出现的比例之间的比值是多少?处方集举例1麻黄;桂枝;白芍2麻黄;桂枝;白芍;干姜3麻黄;白术;干姜4桂枝;白芍;白术;干姜5麻黄;桂枝;白术;干姜目录解决的问题关联规则相关理论基础–关联规则–分类关联规则–兴趣度参数SPSSCLEMENTINE中实现的关联规则挖掘算法案例:仲景方配伍规律挖掘√关联规则关联规则(AssociationRule)是形如R:A→B的规则,满足A∩B=Φ&sup(R)≥min_sup&conf(R)≥min_conf。其中,A,B均为属性集合,sup(R)为规则R的支持度,min_sup为最小支持度阈值;conf(R)为规则R的置信度,min_conf为最小置信度阈值。如:泽泻白术猪苓=茯苓分类关联规则分类关联规则(ClassAssociationRule)是形如R:C→D的规则,满足C∩D=Φ&sup(R)≥min_sup&conf(R)≥min_conf。其中,C为条件属性(或中药)集合,D为决策属性(或方剂分类);sup(R)为规则R的支持度,min_sup为最小支持度阈值;conf(R)为规则R的置信度,min_conf为最小置信度阈值。如:桂枝*生姜*白芍→寒证兴趣度参数–规则R的支持度定义如下:sup(R)=P(A∩B);P(A∩B)为A和B同时出现的概率;–规则R的置信度定义如下:conf(R)=P(B|A);P(B|A)为在A出现条件下出现B的条件概率。–规则R的提升度定义如下:lift(R)=P(B|A)/P(B);条件A的出现对B出现概率的提升,说明A与B之间的相关性,大于1为相关,小于1则不相关兴趣度参数支持度(support)、置信度(confidence)、提升度(或作用度,lift)是描述分类关联规则兴趣度的三项重要指标,支持度反映规则的普遍性,置信度反映规则的可靠性,提升度反应规则两侧属性之间的相关性,通常选择支持度、置信度、提升度均较高的规则作为发现的有趣模式。关联规则挖掘算法通常需要设置两个参数:即最小支持度阈值min_sup为5%;最小置信度阈值min_conf为50%。关联规则——举例例如:泽泻白术猪苓=茯苓sup=0.1565;conf=0.9684;lift=2.24共有591首脾胃湿热方中有92首方剂同时出现泽泻、白术、猪苓、茯苓四味中药,故规则的支持度为15.65%;因95首同时出现泽泻、白术、猪苓三味中药的脾胃湿热方中有92首方剂同时出现茯苓这味药,故上述规则的置信度为96.84%。因茯苓出现的概率43%,则提升度为2.24.分类关联规则——举例例如:桂枝*生姜*白芍→寒证(sup=5.6%,conf=60%,lift=1.71)仲景方共268首,桂枝、生姜、白芍三味中药同时出现在治疗寒证方剂中的频数为15,桂枝、生姜、白芍三味药同时出现在仲景方中的频数为25,寒证出现的概率=35%,则上述规则的支持度为:15/268=5.6%;置信度为:15/25=60%;提升度为:60%/35%=1.71。若系统设置最小支持度阈值为5%,最小置信度阈值为50%,则该规则将作为发现的有趣模式(用药配伍规律)反馈给用户。参数计算样例ID麻黄桂枝白芍白术干姜111100211101310011401111511011麻黄→桂枝sup=?;conf=?;lift=?目录解决的问题关联规则相关理论基础SPSSCLEMENTINE中实现的关联规则挖掘算法–数据格式需求–模型建立与参数设置案例:仲景方配伍规律挖掘√数据格式需求——表格格式ID半夏厚朴茯苓生姜干苏叶麻黄019111110020100001ID方名出处组成019半夏厚朴汤金匮要略半夏一升厚朴三两茯苓四两生姜五两干苏叶二两020半夏麻黄丸金匮要略半夏等分麻黄等分数据格式需求——交易格式IDIndex1019半夏019厚朴019茯苓019生姜019干苏叶020半夏020麻黄目前通常收集的数据格式CLEMENTINE中实现的关联规则挖掘算法需要的格式ID方名出处组成019半夏厚朴汤金匮要略半夏一升厚朴三两茯苓四两生姜五两干苏叶二两020半夏麻黄丸金匮要略半夏等分麻黄等分模型建立与参数设置仲景方数据集运行CLEMENTINE建立数据流参数设置数据流数据源节点类型节点模型节点——fields标签模型节点——model标签目录解决的问题关联规则相关理论基础SPSSCLEMENTINE中实现的关联规则挖掘算法案例:仲景方配伍规律挖掘–问题–仲景方数据集–仲景方数据预处理–仲景方配伍规律挖掘√事务格式数据流窗口数据源节点类型节点设置模型节点设置结果节点分析结果问题仲景方,即张仲景所创方剂,因其配伍严谨、疗效卓著,被后世尊奉为经方。总结张仲景的用药配伍规律分别从八纲中的寒、热、虚、实;病位中的表里、五脏六腑、六经、仲景方出处等角度分别总结张仲景治疗寒、热、虚、实等诸证的遣方用药规律。仲景方数据集选择张仲景所著《伤寒论》中方剂113首,《金匮要略》中方剂205首,共318首方剂,构建了含“ID、方名、出处、功效、主治、药物组成”等字段的仲景方数据集。查看《伤寒论》、《金匮要略》原始数据查看仲景方数据集仲景方数据预处理–空缺值处理–中药名规范化–药物组成结构化–方剂排重–方剂归类与结构化–格式转换仲景方数据预处理——空缺值处理删除无药物组成等信息的方剂7首,余311首方剂ID方名出处功效主治药物组成081附子汤金匮要略温阳散寒,暖宫安胎妊娠阳虚寒盛腹痛证……………249文蛤散伤寒论查看原始数据仲景方数据预处理——中药名规范化规范化“药物组成”字段中的中药名–删除已不再使用的29味药物,如“白鱼”、“鸡屎白”;–更改17味中药的名称,如“柏叶”改为“侧柏叶”;–处理同药异名,“赤硝”、“芒硝”、“硝石”规范使用药名“芒硝”;–处理同名异药,如“芍药”拆分为“白芍”与“赤芍”。经中药名规范化后,仲景方药物组成中涉及的药物由172味变为132味。查看原始数据仲景方数据预处理——药物组成结构化ID方名药物组成001白虎加桂枝汤知母六两甘草二两石膏一斤粳米二合桂枝三两002白虎加人参汤知母六两石膏一斤甘草三两粳米六合人参三两ID方名组成知母甘草石膏粳米桂枝人参001白虎加桂枝汤…11111002白虎加人参汤…11111………………………查看原始数据仲景方数据预处理——方剂排重方剂排重的原则–如果两首方剂药物组成相同,且各药物用量比例相同,就可以判为相同方剂。–使药剂量的少许差异不会导致两首方剂功效、主治的差异,因此仍然能判断为相同方剂,如“姜、草、枣”一类作为“使”药使用时,少许用量差异则忽略不计。排除重复方剂43首,余268首方剂。查看原始数据仲景方数据预处理——方剂归类分别从病性(寒热虚实)、病位(五脏六腑)、六经、出处(伤寒、金匮)等角度对仲景方进行归类方名功效主治根据所治疾病的性质归类根据所治疾病的部位归类根据所治疾病的病变过程归类根据方剂出处归类白虎加桂枝汤清里热,解外寒温疟热、寒表里金匮白术散辛寒清热阳明病表里俱热证虚、寒脾胃金匮白通加猪胆汁汤通阳行水化湿阳虚风湿湿重证虚、寒心少阴病伤寒查看原始数据仲景方数据预处理——方剂归类结构化ID方名根据所治疾病的性质归类寒热虚实001白虎加桂枝汤热、寒寒热002白虎加人参汤热热004白虎汤热热006白术散虚、寒寒虚007白通加猪胆汁汤虚、寒寒虚008白通汤虚、寒寒虚查看原始数据格式转换挖掘的主题–张仲景主治寒热证的用药规律数据集成–集成“药物组成结构化”&“方剂归类结构化”–调整数据分组结构化转换为三元组方式仲景方配伍规律挖掘关联规则挖掘分类关联规则挖掘模式评估(1)挖掘出的关联规则和分类关联规则可以作为专业领域内已公认知识的佐证。(2)有些模式的价值目前尚不能得到认可,可以通过文献考证、专家认可、临床或试验等来确认模式的有效性。试验考核内容——3月21日之前交报告仲景方用药关联规则的挖掘仲景方用药分类关联规则挖掘–寒、热、寒热错杂–虚、实、虚实错杂

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功