Chapter 8 中医证型关联规则挖掘

目录

一、背景和目标

二、方法步骤

三、过程

3.1 数据获取

3.2 数据预处理

3.3 模型构建

四、模型应用


一、背景和目标

  • 借助患者的病理信息,挖掘患者的症状于中医证型之间的关联关系。
  • 对截断治疗提供依据,挖掘潜性证素。

二、方法步骤

  1. 问卷调查,收集整理数据。
  2. 对数据进行预处理,包括数据清洗、属性规约、数据变换,形成建模数据。
  3. 对预处理后的建模数据,采用“关联规则算法”,调整模型输入参数,获取各中医证素于乳腺癌TNM分期之间的关系。
  4. 结合实际业务,对模型结果进行分析,且将模型结果应用到实际业务中,最后输出关联规则结果。

三、过程

3.1 数据获取

  1. 拟定调查问卷并形成原始指标表。
  2. 定义纳入标准与排除标准。
  3. 将收集回来的问卷整理成原始数据。

 

3.2 数据预处理

3.21 数据清洗

根据“问卷有效性条件”(纳入标准、排除标准)筛选后,将有效问卷整理成原始数据。

3.22 属性规约

为了更为有效地进行挖掘,将冗余属性和与挖掘无关的属性删除。最后选择其中6种证型得分TNM分期的属性值构成数据集。

3.23 数据变换

(1)属性构造

为了更好的反映证素分布的特征,采用证型系数代替具体的单证型得分。

公式:证型系数=该证型得分/该证型总分

处理后数据形式如下:

(2)数据离散化

因为Apriori关联规则算法无法处理连续型数值变量,为了将原始数据格式转换成合适的建模格式,需要对数据进行离散化。这里采用聚类算法对各个证型系数进行离散化处理,将每个属性聚成4类。

#-*- coding: utf-8 -*-
'''
聚类离散化,最后的result的格式为:
      1           2           3           4
A     0    0.178698    0.257724    0.351843
An  240  356.000000  281.000000   53.000000
即(0, 0.178698]有240个,(0.178698, 0.257724]有356个,依此类推。
'''
from __future__ import print_function
import pandas as pd
from sklearn.cluster import KMeans #导入K均值聚类算法

datafile = '.../data/data.xls' #待聚类的数据文件
processedfile = '.../tmp/data_processed.xls' #数据处理后文件
typelabel ={u'肝气郁结证型系数':'A', u'热毒蕴结证型系数':'B', u'冲任失调证型系数':'C', u'气血两虚证型系数':'D', u'脾胃虚弱证型系数':'E', u'肝肾阴虚证型系数':'F'}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值