摘要: 【目的/意义】标题作为论文的压缩表示和主旨精髓,在检索、标引等环节中发挥着重要作用。以人文社会 科学领域的学术文本标题生成任务为例,为大语言模型在学术文本挖掘中的应用提供参考。【方法/过程】从实证的 角度出发,探索当前的开源中文大语言模型Qwen-7B在学术文本标题生成任务中的有效性,以及将人文社会科学 领域的学术文本数据知识注入开源基座大语言模型的可行性。使用ROUGE和BLUE指标进行词汇级召回率和准 确率评分,同时使用ChatGPT智能对话系统进行语句流畅度和语义相关性评分。【结果/结论】研究发现将中文人文 社会科学领域的学术文本知识注入 Qwen-7B基座模型中并不能有效提升模型在标题生成任务中的能力,开源基 座大模型Qwen-7B在中文上的特征和语义学习能力有待进一步增强;LLaMA2-7B模型在中文学术文本标题生成 上的能力优于Qwen-7B模型。【创新/局限】基于Qwen-7B模型和人文社会科学领域的学术全文本数据,论证了当 前国内的主流开源大语言模型在学术文本标题生成上的应用能力和应用路径,为学术全文本挖掘和组织提供了理 论与实践参考。本文使用的对照模型和训练方法受资源限制较为单一,有待进一步拓展以充分地探索大语言模型 在学术全文本知识挖掘和组织中的边界。