情报科学 ›› 2018, Vol. 36 ›› Issue (4): 14-21.

• 论文 • 上一篇    下一篇

融合去噪技术和动态主题数的新闻话题分析框架研究

  

  • 出版日期:2018-04-05

  • Online:2018-04-05

摘要: 【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。