摘要: 【目的/意义】在医疗问答社区中实现短文本的自动分类对于提高其服务效率和改善用户体验至关重要。 通过构建一个结合关键词扩展技术和深度学习模型的短文本分类方法,以解决短文本分类中的特征稀疏和语义不 明确问题。【方法/过程】首先运用网络爬虫获取医疗问答社区“寻医问药网”的用户问题短文本;然后利用TF-IWF 加权关键词重要性,并通过FastText计算关键词相似度来扩展短文本特征;接着将提示学习与深度学习模型融合, 构建Prompt-BERT-RCNN 模型,实现医疗短文本的有效分类。【结果/结论】实证研究表明,关键词扩展后的分类 效果显著高于扩展前,且 Prompt-BERT-RCNN 模型对扩展后的医疗短文本的分类准确率高达 97.92%,并在 9个 不同医疗类别中均表现优异。【创新/局限】TF-IWF与FastText的短文本扩展方法弥补了Word2vec未考虑关键词稀 有度和子词上下文信息方面的缺陷,Prompt-BERT-RCNN 模型通过融合Prompt的引导、BERT的深层语义理解 以及 RCNN 的区域感知和特征提取能力进一步提升了短文本的分类准确率;但模型在个别主题的准确率仍有待 提升。
