摘要:
【目的/意义】为了解决传统 LDA模型文本主题识别时语义描述不充分以及主题语义连贯性不强等问题,
本文尝试将文本类别信息融入 LDA 模型,形成一种基于中文文本类别信息的主题生成新模型,即 CLCI-LDA 模
型,为数据挖掘领域的文本分析和知识发现提供新的工具。【方法/过程】利用CLCI-LDA模型提取主题时,首先,采
用深度学习的句向量模型 Sentence-BERT 将文本转换为句嵌入向量,并与 LDA 模型生成的文档主题向量进行串
联,以提升文本向量的语义丰富性和关联性;然后,运用K-means聚类算法进行文本聚类,获得文本的类别信息;最
后,根据主题词频次,获取每个类族中的高频关键词,对主题进行凝练。【结果/结论】以我国“智慧图书馆”研究领域
为研究对象进行文献主题提取实验,对 CLCI-LDA 模型及传统 LDA模型的应用效果进行对比。结果表明 CLCI
LDA模型能够更好地获得具有语义信息的主题词,该模型获得的主题一致性指标优于传统的LDA模型。【创新/局
限】相比于传统LDA模型,CLCI-LDA模型在文本语义表示的深入性以及主题凝练的合理性方面均具有优势。但
新模型同时存在参数调优的不足、语义理解深度有待进一步提高的问题;此外 CLCI-LDA 模型的普适性还有待
检验。