摘要:
【目的/意义】探究面向多源异构医疗健康数据的知识抽取与知识融合方法,优化知识图谱自动化构建流
程,旨在提高整合多源异构数据的能力与用户检索信息的效率和质量。【方法/过程】首先以UMLS的医学术语和医
学概念为基础,并采用 BTM 主题模型对非结构化数据进行主题分析,辅助进行本体设计;然后通过对比 BERT
Base、BioBERT、MC-BERT作为CasRel模型编码端的嵌入效果,选择效果最佳的MC-BERT-CasRel模型对非结
构化数据中的实体与关系三元组进行抽取,并对半结构化数据进行数据重组,建立实体间的关联关系;接着采用
SapBERT模型与Levenshtein编辑距离算法对三元组进行数据融合;最终完成知识图谱构建。【结果/结论】基于本文
提出方法最终构建了包含 10010个实体和 29044个关系的“消化系统疾病”知识图谱,并实现了知识检索应用。【创
新/局限】本文聚焦多源异构医疗健康数据的整合,为互联网环境下医疗健康垂直领域的知识图谱构建流程提供了
新的思路和方法借鉴。但数据源的样本量有限,未来可考虑在更大规模数据集上进行知识抽取及知识融合。
