摘要:
【目的/意义】为得到与原文相关度高、冗余度小的摘要,本文提出一种结合深度学习的无监督抽取式文本
摘要模型。【方法/过程】在最大边界相关度(Maximal Marginal Relevance, MMR)模型的基础上,利用深度学习中的
词嵌入与句嵌入的文本向量表示方法计算句子之间的相似度,并根据关键词与位置信息对句子重要性的影响对句
子排序,得到高质量的摘要。将本文提出的模型应用到2018 Byte Cup生成文章标题任务的数据集上验证模型效
果。【结果/结论】模型抽取单句摘要的Rouge-L值为28.24%,高于传统的抽取式文本摘要算法CI(17.37%)、Tex⁃
tRank(22.70%)和 MMR(23.52%);抽取多句摘要的 Rouge-L 值为 37.78%,高于传统的抽取式文本摘要算法 CI
(29.35%)、TextRank(34.15%)和MMR(31.09%);结果表明深度学习有助于提升抽取式文本摘要的效果。【创新/局
限】本文创新点在于将最大边界相关度(MMR)与深度学习相结合,综合考虑句子与全文相似度、关键词以及位置
信息等特征以抽取摘要;局限在于研究范围仅为抽取式文本摘要,后续研究将尝试融合抽象式文本摘要模型。