摘要: 【目的/意义】科技报告数据是国家基础性战略资源,研究对其开发和利用的技术和方法势在必行。通过识 别生物技术领域的研究主题及其演化过程,能够填补科技报告数据的开发和利用场景。【方法/过程】构建生物技术 领域科技报告文本语料库,训练BERTopic主题模型,进行领域研究主题挖掘与演化研究。【结果/结论】基于BER⁃ Topic主题模型共识别出生物技术领域30个主题,通过主题层次聚类法解析了生物技术领域9大研究方向,即植物 基因组学和基因改造、基因工程和工业生物技术、生物技术在生物和生态环境中的应用、兽医病毒学和免疫学、分 子遗传学和生物化学、心血管代谢健康及神经生物学、骨生物学和再生医学、生物医学和临床研究。【创新/局限】所 构建模型能够更好地识别科技报告数据中所呈现的研究主题,生成的生物技术领域主题描述文本质量较好。语料 库对科技报告数据中的摘要和时间字段进行语义分析,并未对其他字段进行分析。