摘要: Google AI 团队发布的 BERT 模型在多项自然语言处理任务中取得了研究成果,但在中文 文献自动分类领域尚有待探索。本文旨在探索 BERTbase 中文基础模型在中文社科、科技期刊文献分 类上的实际分类效果,指出模型在实际应用中存在的问题并提出解决方法。本文选取 R 大类(医 药、卫生)、TG 大类(金属学与金属工艺)、F 大类(经济)、J 大类(艺术)共 1 745 000 条数据作 为训练语料,并以另外 9 610 条数据作为测试样本,利用 BERT 模型分别对社科、科技期刊文献进 行分类研究。测试结果表明 BERT 模型在社科文献中的四级准确率为 76.95%,科技文献为 68.55%。 之后引入惩罚策略,为实际工作中免检数据阈值的设定提供参考。BERTbase 模型在《全国报刊索引》 实际分类标引工作中有一定可行性,基本满足当前网络环境下中文文献自动分类的需求。