基于重复模式识别的网页信息抽取研究

情报科学 ›› 2019, Vol. 37 ›› Issue (3): 88-92.

基于重复模式识别的网页信息抽取研究

出版日期:2019-03-05

Online:2019-03-05

摘要/Abstract

摘要： 【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多，企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法，通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤，提取到了详情页面的标题和主要内容。【结果/结论】对于结构稳定的页面，本文实现了较高质量的信息抽取。不足之处是聚类和相似度的计算量较大，时间较长。

李志义1, 沈之锐2. 基于重复模式识别的网页信息抽取研究[J]. 情报科学, 2019, 37(3): 88-92.

LI Zhi-Yi-1, SHEN Zhi-Rui-2. [J]. INFORMATION SCIENCE, 2019, 37(3): 88-92.

基于重复模式识别的网页信息抽取研究

可视化

点击数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

编辑推荐

Metrics

本文评价