利用文本挖掘定义经过验证的医院排名模型
立即解锁
发布时间: 2025-08-23 01:20:13 阅读量: 2 订阅数: 3 

### 利用文本挖掘定义经过验证的医院排名模型
#### 1. 引言
在比较研究中使用名义数据前,通常需要对其进行处理,特别是当名义字段有大量级别时。名义数据常仅包含名词,一般不适合用文本挖掘进行分析。但如果存在标识符字段,能将名义字段的多个项目与一个标识符代码关联起来,就可以用文本挖掘对名义数据字段中的级别进行分组和排名。具体步骤如下:
1. 转置数据,使观测单位为标识符,且所有名义值都在观测单位中定义。
2. 对名义数据进行分词,使每个名义值定义为一个标记。
3. 将名义标记连接成文本字符串,每个标识符对应一个文本字符串,每个文本字符串是标记的集合,每个标记代表一个名词。
4. 使用文本挖掘对文本字符串进行聚类,使每个标识符属于一个聚类。
5. 使用其他统计方法在聚类中定义自然排名。
6. 将文本挖掘定义的聚类用于其他统计分析。
下面将展示如何使用与患者医疗状况相关的名义数据来定义患者严重程度指数,以评估医疗服务提供者的质量。
#### 2. 患者严重程度指数的背景
##### 2.1 术语问题
在很多情况下,数据分析几乎完全依赖于数据录入时使用的数据定义。不同实体使用不同定义进行绩效比较时,可能会出现“操纵”系统以获得有利排名的情况。
例如,婴儿死亡率看似定义明确,但不同组织对“婴儿期”的定义不同。世界卫生组织定义为从活产到一岁内的死亡,但许多欧洲国家不将体重低于500克或孕周小于28周的婴儿计入婴儿死亡率。这导致美国因定义更严格,排名低于部分欧洲国家。
“健康”的定义也很模糊。一项研究显示,英国男性比美国男性更健康,但该研究仅依据自我报告的癌症发生率,未考虑癌症筛查和早期检测,也未区分癌症类型,还忽略了英国男性较高的吸烟和肥胖率。此外,该研究使用的HbA1c测试并非糖尿病的常见筛查工具,且接受该测试的人群本身就是糖尿病高危人群,将结果推广到普通人群并不合理。
世界卫生组织将健康定义为身体、心理和社会的全面幸福,但这个定义有些循环,因为“身体健康”的定义并不明确。因此,进行健康状态比较的统计分析时,应明确“健康”的定义及使用方式。
##### 2.2 医疗服务提供者质量建模
大多数统计方法,特别是线性模型,都假设研究的总体数据录入是统一的。但实际情况并非如此,例如不同国家对婴儿死亡率的定义不同,导致跨国比较婴儿死亡率的统计模型无效。然而,这种缺乏有效性的统计指标仍在被使用。
在评估医疗服务提供者,特别是医院的质量时,需要考虑患者的严重程度。病情较重的患者并发症和死亡风险更高,治疗高风险患者比例较大的医院,其有利结果的发生率会低于只治疗低风险患者的医院。如果不考虑患者严重程度,医院可能只接收低风险患者以提高排名,而将重症患者转诊。
以Healthgrades.com为例,该公司使用Medicare数据,通过逻辑回归根据患者风险因素定义预测死亡率。但由于并非所有医院都会记录所有可能的患者风险因素,未记录这些因素的医院会受到惩罚。医院排名通过比较预测死亡率和实际死亡率来确定,提高排名的方法一是降低实际死亡率,二是增加预测死亡率,而增加预测死亡率可通过更多记录患者风险因素来实现。
因此,能在不假设数据录入统一的情况下定义患者严重程度的模型,将有助于比较不同医疗服务提供者的护理质量。
##### 2.3 患者病情编码
患者严重程度由其整体健康状况决定,通过世界卫生组织制定的ICD9(ICD10)代码来定义。这些代码是5位数字,前3位代表主要病症,后2位代表具体情况。例如,“401”代表高血压,“4019”代表未指明的原发性高血压;“250”代表糖尿病,“25003”代表未提及并发症的1型糖尿病且病情未控制。
通常,这些代码由医生根据患者病历手动录入计费记录。如果医生治疗了患者问题但未记录具体病情细节,该病情就无法录入计费记录。因此,患者病情的定义取决于文档记录的质量。
由于医生记录的详细程度不同,数据录入的统一性假设并不成立。例如,与糖尿病相关的ICD - 9代码有51个,仅以下5个代码就体现了不同的详细程度:
1. 250 未提及并发症的糖尿病
2. 25000 未提及并发症的2型糖尿病
3. 25001 未提及并发症的1型糖尿病
4. 25002 未提及并发症且未控制的2型糖尿病
5. 25003 未提及并发症且未控制的1型糖尿病
医生在记录“未控制的糖尿病”时缺乏明确指导,不同医院的记录差异较大。此外,不同提供者记录ICD9代码的详细程度也不同,有的只记录前3位,有的则记录全部5位。
由于可能的ICD9代码有数千个,每个患者可能有多个代码(通常最多9 - 10个),代码组合数量呈指数级增长,且不同代码组合出现的概率不同,不能将不同代码视为独立的。因此,需要将这些代码组合压缩为不超过4 - 10个级别的严重程度排名。
近年来,电子病历的使用使医生可通过菜单列表定义患者病情,但只有少数医疗服务提供者使用该系统,且医生使用菜单的方式不同,编码不统一的问题仍将存在一段时间。
##### 2.4 压缩大量分类变量
有一些简单方法可减少复杂分类变量的级别:
- **定义“其他”级别**:将除最常见级别外的所有级别合并为“其他”级别。例如,在糖尿病药物研究中,将358种药物中的大部分合并后,级别从351个减少到11个。还可利用领域知识进一步合并,如将Novolin、Insulin和Humulin(均为胰岛素类型)合并为一个级别。
- **基于目标的枚举**:通过每个级别内结果变量的平均值对级别进行量化,结果最小的级别编码为1,次小的编码为2,依此类推。一种改进方法是使用每个级别的实际结果平均值,将预期结果相同的级别合并,称为证据权重重新编码。
然而,证据权重技术在每个级别观测值数量不足时,对新数据的泛化能力较差,且需要明确定义目标变量,在有多个目标时,类别重新编码不稳定。此外,目标变量需为区间变量,以便平均值有意义。
目前,这两种方法都未用于将数千个患者病情代码压缩为患者严重程度指数。患者病情代码通常被浓缩为4 - 6个级别的指数,用于研究与死亡率、住院时间和成本因素等不同目标变量的关系。由于存在多个目标,证据权重方法无法找到唯一的指数,且一些罕见的患者病情可能需要高额费用,不能简单合并到“其他”类别中。
##### 2.5 定义患者严重程度的标准模型
评估医院质量和成本效益的标准方法是使用逐步逻辑回归方程(用于死亡率)或线性回归方程(用于成本或住院时间)。模型形式为:
\[y = B_0 + B_1x_1 + ... + B_kx_k + e\]
其中,\(y\)为因变量(要建模的变量),\(x_1, x_2, ..., x_k\)为自变量(用于预测\(y\)的变量),\(e\)为随机误差,\(B_i\)决定自变量\(x_i\)的贡献。
若\(y\)为连续变量(如住院时间或成本),预测值是权重的线性组合;若\(y\)为离散变量(如死亡率),需找到最佳阈值,当权重之和超过该阈值时预测为死亡。
通过计算\(Expected [y (difference)]=Expected [y (predicted)-y(actual)]\)来确定排名,正值表示结果良好,负值表示结果不佳,提供者按预期差异从大到小排列。
尽管标准回归模型的p值通常具有高度统计显著性,但线性回归的\(r^2\)和逻辑回归的c统计量往往很低。由于数据集通常较大,效应量趋近于零,导致结果缺乏实际意义,且存在大量未解释的变异性。
此外,创建模型时假设患者风险因素在所有提供者处统一录入。若医院少报风险因素,预测值会降低,排名也会受到影响,这使得过度报告风险因素的医院受益。
模型创建后需要验证,包括检查模型假设的可靠性以及新数据输入时结果的一致性。但如果不同模型存在相同的错误假设,验证将失去意义。
##### 2.6 数据录入缺乏统一性的检查
通过两个数据集研究患者严重程度问题,第一个数据集包含13家医院的14,700 + 条患者记录,第二个数据集包含8家医院的7,000 + 条记录,均聚焦于心脏诊断相关组(DRG 104 - 110)的患者,分别来自1998年和2001年。
不同医院患者在严重程度类别中的分布差异较大。例如,医院#4只有3%的患者处于最低严重程度类别,而医院#7有12%;医院#4、6和12约40%的患者处于最高风险类别,这些医院的住院时间和总费用预测值较高,而医院#5和13的预测值较低。医院可通过改进编码将患者转移到更高风险类别来提高排名。
标准逻辑回归方法对部分医院不利。例如,医院#3、6和11在严重程度的前两个类别中有较高比例的患者,可能是因为它们未记录逻辑模型中包含的患者病情。
从平均住院时间来看,除医院#2外,其他医院在1 - 3类中的平均住院时间较为一致,在第4类中有显著增加。医院#12有超过40%的患者在第4类,平均住院时间为13天,费用较高,但不清楚是患者病情更严
0
0
复制全文
相关推荐










