情报科学 ›› 2017, Vol. 35 ›› Issue (8): 23-27.

• 论文 • 上一篇    下一篇

基于云计算的微博舆情流式快速自聚类方法研究

  

  • 出版日期:2017-08-05

  • Online:2017-08-05

摘要: 【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。