图书馆杂志 ›› 2025, Vol. 44 ›› Issue (408): 110-122.
胡 蝶1, 2 林立涛3 刘 浏1, 2 沈 思4 王东波1, 2 (1 南京农业大学信息管理学院 2 南京农业大学人文与社会计算研究中心 3 南京大学信息 管理学院 4 南京理工大学经济管理学院)
Hu Die1, 2, Lin Litao3, Liu Liu1, 2, Shen Si4, Wang Dongbo1, 2 (1 College of Information Management, Nanjing Agricultural University; 2 Research Center for Humanities and Social Computing, Nanjing Agricultural University; 3 School of Information Management, Nanjing University; 4 School of Economics and Management, Nanjing University of Science and Technology)
摘要: 学术论文的快速增长与学科领域的细分化程度提高对学术文献自动分类提出了更高的要求。为探究大语言模型在学术论文学科分类上的适用性,本文以人文社会科学领域论文为例,基于代表性传统机器学习模型与大语言模型Qwen-7B、Llama2-7B、Llama2-7B-hsse 及GPT4 开展学科分类实验,对比分析不同模型性能。在此基础上,探究大语言模型在不同规模精调数据上的分类表现。研究表明,基于领域大语言模型Llama2-7B-hsse 构建的人文社科论文分类器以89.22% 的整体分类F1 值在21 分类的对比实验中展现出明显优势,仅需五分之一的数据就能够达到与人文社科领域预训练模型SsciBERT 相当的分类效果。基于大语言模型的领域增量训练与微调策略能够有效支持数据资源受限情景下的学术论文自动分类,同时为知识组织、学科交叉分析提供新思路。