基于大语言模型的跨语言典籍自动分词研究

图书馆杂志 ›› 2025, Vol. 44 ›› Issue (413): 104-115.

基于大语言模型的跨语言典籍自动分词研究

王希羽1, 2 王东波1, 2(1 南京农业大学信息管理学院 2 南京农业大学人文与社会计算研究中心)

出版日期:2025-09-15 发布日期:2025-09-29
作者简介:
王希羽南京农业大学信息管理学院,硕士研究生。研究方向:数字人文、自然语言处理。作者贡献:撰写论文初稿、完成论文修改。E-mail wangxiyu @ stu.njau. edu. cn 江苏南京 210095
王东波南京农业大学信息管理学院,教授,博士生导师。研究方向:数字人文、自然语言处理。作者贡献:研究思路指导、提供修改建议。江苏南京 210095

Research on Automatic Word Segmentation of Cross-Language Classics Based on Large Language Model

Wang Xiyu1 2，Wang Dongbo1 2（1 College of Information Management NanjingAgricultural University 2 Research Center for Humanities and Social Computing Nanjing AgriculturalUniversity）

Online:2025-09-15 Published:2025-09-29
About author:
Wang Xiyu1 2，Wang Dongbo1 2（1 College of Information Management NanjingAgricultural University 2 Research Center for Humanities and Social Computing Nanjing AgriculturalUniversity）

摘要/Abstract

摘要：

本研究旨在探索大语言模型在跨语言典籍自动分词任务中的应用和效果,特别是针对古汉语与现代汉语的分词差异,以及如何利用大模型的语言处理能力提高分词的准确性和效率。本研究不仅为古籍文献的数字化和语言资源的丰富提供了新的途径,也为比较文学和跨文化研究提供了技术支持。本研究选择Xunzi-Qwen1. 5-7B、 Xunzi-Baichuan2-7B、 Xunzi-GLM3-6B 与其对应的基座模型Qwen1. 5-7B-Base、 Baichuan2-7B-Base、 Chatglm3-6B-Base 进行跨语言典籍分词的实验。基于《左传》构建包含古汉语和现代汉语的跨语言典籍分词数据集,对数据进行清洗、标注和整合。在此基础上,将数据集分为500、 1000、 2000 和5000 条不同规模的训练集,并基于这些子集对模型进行指令微调,以测试和比较不同模型在跨语言分词任务上的性能。实验结果表明,大语言模型在跨语言典籍分词任务上具有显著的性能优势。即使是在较小规模的训练数据条件下,模型也能展现出较高的分词准确率。研究结果验证了大语言模型在处理跨时代、跨语言文本分词任务中的有效性和潜力,为后续的古籍数字化和语言技术研究提供了有价值的参考和启示。

关键词: 数字人文&emsp, 跨语言&emsp, 典籍分词&emsp, 大语言模型

Abstract:

The purpose of this study is to explore the application and effectiveness of the large language models LLMs in the task of automatic word separation in cross-linguistic canonical texts with a focuson addressing segmentation differences between ancient and modern Chinese. It explores how LLMs canimprove the accuracy and efficiency of word separation. This study not only provides a new way fordigitization of ancient literature and enrichment of language resources but also provides technical supportfor comparative literature and cross-cultural research. In this study Xunzi-Qwen1. 5-7B Xunzi-Baichuan2-7B Xunzi-GLM3-6B and their corresponding base models Qwen1. 5-7B-Base Baichuan2-7BBase and Chatglm3-6B-Base were selected to conduct cross-linguistic canonical lexicography experiment. Based on the Zuo Zhuan a cross-lingual canonical lexicon dataset containing ancient Chinese and modern Chinese was constructed and the data cleaned labeled and integrated. The dataset waspartitioned into training sets of 500 1000 2000 and 5000 entries and each model was fine-tuned with commands based on these subsets to test and compare their performance in cross-language word segmentation tasks. The experimental results showed that LLMs have a significant performance advantage in cross-linguistic canonical word segmentation. Even with smaller scale training data the model could demonstrate a high accuracy of word segmentation. The results validated the effectiveness and potential of LLMs in dealing with cross-era and cross-lingual textual word segmentation and provided valuable references and insights for subsequent research on ancient book digitization and language technology.

Key words:

Digital humanities, Cross-language, Word segmentation of ancient classics, Large language models LLMs

王希羽1, 2 　王东波1, 2 (1 南京农业大学信息管理学院　2 南京农业大学人文与社会计算研究中心).

基于大语言模型的跨语言典籍自动分词研究 [J]. 图书馆杂志, 2025, 44(413): 104-115.

Wang Xiyu1 2, Wang Dongbo1 2（1 College of Information Management NanjingAgricultural University 2 Research Center for Humanities and Social Computing Nanjing AgriculturalUniversity）.

Research on Automatic Word Segmentation of Cross-Language Classics Based on Large Language Model [J]. Libraly Journal, 2025, 44(413): 104-115.

参考文献

[ 1 ] 孙茂松,左正平,黄昌宁. 汉语自动分词词典机制的实验研究[J]. 中文信息学报,2000(1):1 6.

[ 2 ] 李庆虎,陈玉健,孙家广. 一种中文分词词典新机制———双字哈希机制[J]. 中文信息学报,2003(4): 13 18.

[ 3 ] 李家福,张亚非. 基于EM 算法的汉语自动分词方法[J]. 情报学报,2002(3):269 272.

[ 4 ] 张梅山,邓知龙,车万翔,等. 统计与词典相结合的领域自适应中文分词[ J]. 中文信息学报, 2012, 26(2):8 12.

[ 5 ] 涂文博,袁贞明,俞凯. 无池化层卷积神经网络的中文分词方法[J]. 计算机工程与应用,2020, 56(2): 120 126.

[ 6 ] 金宸,李维华,姬晨,等. 基于双向LSTM 神经网络模型的中文分词[J]. 中文信息学报,2018, 32(2): 29 37.

[ 7 ] 胡昊天,邓三鸿,张逸勤,等. 数字人文视角下的非物质文化遗产文本自动分词及应用研究[J].图书馆杂志,2022, 41(8):76 83.

[ 8 ] 钱智勇,周建忠,童国平,等. 基于HMM 的楚辞自动分词标注研究[J]. 图书情报工作,2014, 58(4): 105 110.

[ 9 ] 石民,李斌,陈小荷. 基于CRF 的先秦汉语分词标注一体化研究[J]. 中文信息学报,2010, 24(2): 39 45.

[10] 程宁,李斌,葛四嘉,等. 基于BiLSTM-CRF 的古汉语自动断句与词法分析一体化研究[J]. 中文信息学报,2020, 34(4):1 9.

[11] 邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报,2021,35(7):41 46.

[12] 王晓玉,李斌. 基于CRFs 和词典信息的中古汉语自动分词[J]. 数据分析与知识发现,2017, 1(5): 62 70.

[13] 俞敬松,魏一,张永伟,等. 基于非参数贝叶斯模型和深度学习的古文分词研究[J]. 中文信息学报,2020, 34(6):1 8.

[14] 刘畅,王东波,胡昊天,等. 面向数字人文的融合外部特征的典籍自动分词研究———以SikuBERT预训练模型为例[J]. 图书馆论坛,2022, 42(6): 44 54.

[15] 唐雪梅,苏祺,王军,等. 基于图卷积神经网络的古汉语分词研究[J]. 情报学报,2023, 42 (6): 740 750.

[1]	张　旭1 　张　斌1, 2, 3 (1 中国人民大学信息资源管理学院　2 中国人民大学图书馆　3 中国人民大学数字人文研究院). 中国数字人文学术共同体建设的现实困境与实践进路[J]. 图书馆杂志, 2025, 44(413): 93-103.
[2]	胡蝶1, 2 林立涛3 刘浏1, 2 沈思4 王东波1, 2 （1 南京农业大学信息管理学院 2 南京农业大学人文与社会计算研究中心 3 南京大学信息管理学院 4 南京理工大学经济管理学院）. 基于大语言模型的人文社会科学学术论文学科分类研究[J]. 图书馆杂志, 2025, 44(408): 110-122.
[3]	唐振贵1 罗锦坤2 胡蓉3 （1 广西财经学院新闻与文化传播学院 2 莆田学院新工科产业学院 3 西南大学教师教育学院）. 星空记忆：中国古代天象记录智慧数据构建框架研究[J]. 图书馆杂志, 2025, 44(408): 70-83.
[4]	刘江峰1, 2 张冉1, 2 张君冬2 裴雷1, 2 （1 南京大学数据智能与交叉创新实验室 2 南京大学信息管理学院）. 以生成式人工智能赋能思想史计算研究：模型构建与应用探索 [J]. 图书馆杂志, 2025, 44(407): 113-127.
[5]	孙翌刘音（上海交通大学图书馆）. 基于知识图谱和大语言模型的口述历史资源的问答应用研究[J]. 图书馆杂志, 2025, 44(405): 98-107.
[6]	傅爱雯邵波（南京大学信息管理学院南京大学图书馆）. 基于大语言模型的文献资源保障体系运行机制的重构研究[J]. 图书馆杂志, 2024, 43(402): 60-69.
[7]	李谦升（上海大学上海美术学院）. 数智时代美术资源知识服务体系构建研究——以艺术类院校应用场景为例[J]. 图书馆杂志, 2024, 43(401): 24-36.
[8]	韩春磊姚啸华张宏玲刘英捷沈立力（上海图书馆）. 新时代古籍智慧化服务实践探讨——以古典小说续作研究场景为例[J]. 图书馆杂志, 2023, 42(392): 58-68.
[9]	沈立力张宏玲韩春磊姚啸华张文棋（上海图书馆）. 图书馆数字人文工具建设实践与未来展望[J]. 图书馆杂志, 2023, 42(392): 45-57.
[10]	刘倩倩刘圣婴刘炜（上海图书馆华东师范大学图书馆）. 图书情报领域大模型的应用模式和数据治理[J]. 图书馆杂志, 2023, 42(392): 22-35.
[11]	张宏玲沈立力韩春磊付雅明（上海图书馆上海大学文化遗产与信息管理学院）. 大语言模型对图书馆数字人文工作的挑战及应对思考[J]. 图书馆杂志, 2023, 42(391): 31-39.
[12]	郭利敏（上海图书馆）付雅明（上海大学文化遗产与信息管理学院）. 以大语言模型构建智慧图书馆：框架和未来[J]. 图书馆杂志, 2023, 42(391): 22-30.
[13]	金家琴刘炜（上海图书馆）. AI2.0 时代的数字学术及其范式变革[J]. 图书馆杂志, 2023, 42(391): 10-21.
[14]	王静静叶鹰王婉茹（山东大学新闻传播学院复旦大学国家智能评价与治理实验基地南京大学江苏省国际联合信息学实验室南京大学信息管理学院浙江财经大学信息管理与人工智能学院）. GPT类技术应用开启智能信息处理之颠覆性变革[J]. 图书馆杂志, 2023, 42(385): 9-13.