症状规范化的自动化方法
立即解锁
发布时间: 2025-08-30 01:52:16 阅读量: 5 订阅数: 13 AIGC 

### 症状规范化的自动化方法
在中医临床诊断中,症状数据的规范化对于提高诊断准确性和综合征分化至关重要。本文将介绍一系列用于症状规范化的自动化方法,包括规范症状系统的构建、检索架构的设计、匹配查询流程、分类模型的建立以及语义相似度的计算等内容。
#### 1. 相关技术基础
- **后缀树**:后缀树在处理文本信息任务中具有重要作用,可用于高效的字符串匹配和查询。
- **AutoML**:近年来,AutoML的提出和应用处于快速发展阶段,在多个成熟工具中已显示出明显效果。不过,TPOT算法灵活性不足,DarwinML算法设计复杂。因此,在规范化当前症状时,我们参考了Autostacker,它是一种使用进化算法(EA)的AutoML建模架构,能快速进化出具有高预测准确性的候选管道。
- **语义相似度模型**:连续词袋模型(CBOW)和Skip - Gram在英文文本中很有效,但在处理中文症状语义相似度任务时存在不足。字符增强词嵌入(CWE)在CBOW基础上改进,添加了汉字信息作为上下文。定向Skip - Gram(DSG)是对Skip - Gram的改进,能在词预测中清晰区分上下文。
#### 2. 规范症状系统
规范症状系统结合了中医和西医的症状词汇。其中,中医规范症状词定义参考了Zhang等人的研究,共21449个,还基于Yu等人的研究扩展了3890个常见症状词。同时,为解决中西医症状混合的问题,建立了西医规范症状系统。最终,中西医规范症状系统中包含25339个中医规范症状词和7704个西医规范症状词。
| 中医 | 西医 |
| --- | --- |
| 急躁易怒 | 双眼红 |
| 少神 | 眼睑红 |
| 舌体麻木 | 眼球震颤 |
| 舌质红绛 | 双颌下淋巴结 |
#### 3. 检索架构
中医规范症状系统中的舌象、舌苔和脉象可总结为“身体部位 + 症状描述”的形式。基于此特征,对后缀树进行改造,将每个症状词添加到后缀树中,并使用额外的字典指示其所属的规范症状词。以下是构建检索架构的步骤:
1. 去除舌象症状词中舌体的位置描述。
2. 按字符数量升序对舌象症状描述的词语进行排序。
3. 从后往前根据词语数量构建后缀树。
4. 将症状描述词对应的规范症状词以字典形式放入后缀树。
例如,对于“Partial Red”,如果“Red”已出现在后缀树的第一层,将“Partial”直接放入下一层,并在后缀树中以字典形式添加对应的规范症状词“Red Crimson Tongue”(舌质红绛)。
#### 4. 匹配查询流程
使用深度优先遍历和回溯算法,可在较低时间复杂度的条件下,将中医病历中不标准和模糊的舌象、舌苔和脉象映射到规范症状系统。以“Tongue Dark Red Dim”(舌深红黯)为例,假设“Dark Red”(深红)不在规范症状词中,其匹配查询步骤如下:
1. 若有部位描述则删除并反转单词。深度优先查询算法的第一个字符是“Dim”(黯),若查询成功则继续查询“Red”。
2. 第二次查询时,若未找到“Red”,则返回上一状态,获取“Dim”(黯)对应的规范症状词,并从请求词中删除“Dim”(黯)。
3. 第三次查询时,单词中只剩“Dark Red”(深红)。成功查询“Red”后,根据“Red”继续查询“Dark”(深)。
4
0
0
复制全文
相关推荐









