图书馆杂志

图书馆杂志 ›› 2025, Vol. 44 ›› Issue (407): 113-127.

• 数字人文 • 上一篇    下一篇

以生成式人工智能赋能思想史计算研究:模型构建与应用探索 

刘江峰1, 2 张 冉1, 2 张君冬2 裴 雷1, 2 (1 南京大学数据智能与交叉创新实验室 2 南京大学信息管理学院)   

  • 出版日期:2025-03-15 发布日期:2025-03-17
  • 作者简介:刘江峰 南京大学信息管理学院,博士研究生。研究 方向:计算人文、智能信息处理与评价。作者贡献: 研究设计、撰写并修改论文。E-mail:jfliu@smail.nju. edu.cn 江苏南京 210023 
    张 冉 南京大学信息管理学院,硕士研究生。研究 方向:计算人文、智能信息处理与评价。作者贡献: 数据与实验。 江苏南京 210023 
    张君冬 南京大学信息管理学院,博士研究生。研究 方向:计算人文、医疗数据再组织。作者贡献:研究设计、指导实验。 江苏南京 210023 
    裴 雷 南京大学信息管理学院,教授。研究方向: 计算人文、政策量化、信息行为。作者贡献:研究设计、指导并修改论文。 江苏南京 210023

Empowering Computational Research in the History of Ideas with Generative Artificial Intelligence: Model Construction and Applications  

Liu Jiangfeng, Zhang Ran, Zhang Jundong, Pei Lei (1 Data Intelligence and Cross Inno­vation Laboratory, Nanjing University; 2 School of Information Management, Nanjing University)   

  • Online:2025-03-15 Published:2025-03-17
  • About author:

    Liu Jiangfeng, Zhang Ran, Zhang Jundong, Pei Lei (1 Data Intelligence and Cross Inno­vation Laboratory, Nanjing University; 2 School of Information Management, Nanjing University)

摘要:

大语言模型改变了自然语言处理研究的模式。通过生成式自然语言处理,为史料计算化处理提供高效途径。以百川大模型作为基准模型,使用《中国思想家评传》系列丛书文本作为数据源,采用领域继续预训练、有监督微调、直接偏好优化的方法构建了思想家模型,并进行了性能评估。经过评估,思想家模型在中国思想史领域文本的表现优于通用模型,具有可用性。思想家模型降低了知识交流的专业壁垒,可以破解自然语言理解式计算人文研究带来的解读困境。

关键词: 计算史学 人工智能生成内容(AIGC) 思想家 大语言模型 《中国思想家评传》 计算人文

Abstract:

The large language model has changed the natural language processing and is enhancing the computational analysis of historical texts. Taking the Baichuan Large Language Model as the benchmark model and using the text of the book series Biographies of Chinese Thinkers as the data source, the Thinkers Model was constructed by using domain-specific pre-training, supervised fine-tuning, and direct preference optimization, whereas the performance was evaluated. Evaluation results show that the Thinkers Model outperforms general models in this specialized domain, demonstrating its potential in computational humanities research. The Thinker Model reduces the professional barriers to knowledge exchange and can address challenges in natural language interpretation within computational humanities research.

Key words: Computational Historiography, AIGC, Thinkers, Large language model, Biographies of Chinese Thinkers, Computational humanities