摘要: 【目的/意义】PDF文档能够如实地保存原文档的内容和外观,但是也给文档的解析带来了很大的困难。为
了更为全面、自动地挖掘多语科技论文的文本信息,本文对多语论文PDF文档的有效解析和知识抽取方法进行了
探究。【方法/过程】本文提出一种基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素的解析方法,将
科技论文全文的结构框架元素分为文本元素和图表元素,采用规则辅以 Faster-RCNN 深度学习方法分别进行提
取,其中规则方法利用论文行文版式特点识别文字框架元素和图表元素,深度学习方法将图表识别看作目标检测
构建Faster-RCNN网络来补充规则方法的不足。【结果/结论】经过实验验证了本文提出的PDF解析方法优于基准
方法,成功地获取了科技论文的有效全文知识。【创新/局限】本文采用规则辅以深度学习方法更为精细地将多语科
技论文的全文文档结构框架元素进行了提取,并验证了方法的有效性;然而限于PDF文档的复杂程度,表元素仅作
为图片进行了提取,未能深入到表格内部的文本信息。