情报科学 ›› 2020, Vol. 38 ›› Issue (3): 11-16.

• 专论 • 上一篇    下一篇

基于句子主题发现的中文多文档自动摘要研究

  

  • 出版日期:2020-03-01

  • Online:2020-03-01

摘要: 【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出
的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要
中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方
法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec 训
练词向量计算句子的相似度;最终在主题之下通过TextRank 算法来计算句子重要性,并结合句子的统计特征生成
多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁
性、语法性等方面都取得了不错的效果。