摘要:
[目的/意义]解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。[方法/过程]本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路,并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。[结果/结论]结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的BERT模型准确率为95.91%,F1值为94.57%,相比于传统机器学习模型和CNN模型提升分别接近6%和4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。