摘要: 【 目的/意义】在万物互联的开放科学时代,建立科学数据与科技文献之间的关联成为推动科学数据开放获 取、共享和重用的重要举措。【方法/过程】本研究基于Labeled-LDA模型,辅以基于规则的识别方法,构建科学数据 与科技文献关联识别模型,并以生物医学领域为例分别针对规范化引用、非规范化引用以及无引用三种关联情况 进行模型训练与测试。【结果/结论】研究发现本模型在识别规范化引用测试集时识别率和 F值分别为 0.9和 0.5左 右,有比较稳定的识别效果,在识别非规范化引用和无引用的测试集时识别率分别为0.465和0.5,也展现出较强的 可移植性与应用潜力。通过对非规范化引用和无引用识别结果进行人工判断,发现科学研究中确实存在数据引用 不规范的现象,需要学界共同推动数据引用规范化。【创新/局限】与其他研究相比,本文构建的模型为基于语义的 关联识别提供了方法层面的参考和基础,可以应用于大规模语料研究,从而促进更深层次语义关联的知识发现。