情报科学 ›› 2019, Vol. 37 ›› Issue (8): 139-144.

• 论文 • 上一篇    下一篇

基于开放信息源的实体挖掘方法研究

  

  • 出版日期:2019-08-01

  • Online:2019-08-01

摘要: 【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。