摘要: 【目的/意义】将古籍的文本特征和语音特征进行融合,以多模态的方式对古籍进行分析研究。【方法/过程】 首先利用BERT对文本特征进行提取,MFA语音强制对齐模型和Librosa音频处理工具对音频特征进行提取;然后, 在多模态融合层对文本特征和音频特征进行融合;最后,将融合特征输入BiLSTM-CRF层进行标签预测并输出结 果,构建融合音频特征的古籍文本分析模型TAMAF。【结果/结论】融入合适的音频特征后,所提模型在4个下游验 证任务中的表现均优于基线模型。其中,断句效果最高提升了 8.54%;分词效果最高提升了0.21%;命名实体识别 效果最高提升了0.97%;词性标注效果最高提升了0.85%。本文提出的TAMAF模型具有一定的优越性,能够有效 捕捉模态间的交互关系,提升对古籍的处理效果。【创新/局限】语音处理领域还有表达其他物理意义的音频特征可 以融入模型进行探究分析。此外,可以在更广泛的数据集更好地对音频和文本特征进行融合交互。
