面向古诗词的物象库构建方法及其分布规律研究

图书馆杂志 ›› 2024, Vol. 43 ›› Issue (393): 96-108.

面向古诗词的物象库构建方法及其分布规律研究

刘懋霖1，2 赵萌1，2 王昊1，2（ 1 南京大学信息管理学院 2 江苏省数据工程与知识服务重点实验室）

出版日期:2024-01-15 发布日期:2024-01-31
作者简介:刘懋霖南京大学信息管理学院，江苏省数据工程与知识服务重点实验室，硕士研究生。研究方向：数字人文。作者贡献：提出研究思路、设计模型及实验、论文撰写。E-mail：liuml@smail.nju.edu.cn 江苏南京210023 赵萌南京大学信息管理学院，江苏省数据工程与知识服务重点实验室，硕士研究生。研究方向：文本分析与挖掘。作者贡献：数据采集与处理、论文修订。江苏南京 210023 王昊南京大学信息管理学院，江苏省数据工程与知识服务重点实验室，博士，教授，博士生导师。研究方向：知识本体构建及应用、数据挖掘技术应用等。作者贡献：指导研究方向、论文修订及定稿。江苏南京 210023

Research on the Construction Method and Distribution Law of Object-Image Database for Ancient Poetry

Liu Maolin1, 2, Zhao Meng1, 2, Wang Hao1, 2 (1 School of Information Management, NanjingUniversity; 2 Jiangsu Key Laboratory of Data Engineering and Knowledge Service)

Online:2024-01-15 Published:2024-01-31
About author:Liu Maolin1, 2, Zhao Meng1, 2, Wang Hao1, 2 (1 School of Information Management, NanjingUniversity; 2 Jiangsu Key Laboratory of Data Engineering and Knowledge Service)

摘要/Abstract

摘要：

在数字人文视野下，古诗词资源蕴含巨大价值但难以规模化分析。研究古诗词知识库的自动构建方法，有利于从宏观的角度对古诗词进行分析研究，挖掘其中价值。首先，基于“物象”的概念，尝试提取古诗词中所有可能包含情感的客观名物，降低分析复杂度以构建自动化流程；其次，基于深度学习方法构建RoBERTa-BiLSTM-CRF 模型，对古诗词语料进行物象抽取；之后，使用《全唐诗》和部分宋代诗词资源验证模型的可行性与泛用性；最后，成功构建《全唐诗》物象库，并初步分析其物象分布规律。使用《全唐诗》自动标注语料训练模型后，模型对普通名词、时间名词和地名识别的F1 分值分别达到89.6%、93.3% 和93.6%。将模型迁移至未用于训练的宋代诗词语料，抽取密度为每首诗4.5 个物象，具备未登录词发现能力，说明模型有良好的泛用性和可扩展性。

Abstract:

From the perspective of digital humanities, ancient poetry resources are of great value butdifficult to be analyzed at scale. The research on the automatic construction method of knowledge base ofancient poetry is conducive to the analysis and research of ancient poetry from a macro perspective and themining of its value. Firstly, based on the concept of “object image”, the key information in ancient poemsis extracted to reduce the complexity of analysis to build an automated process. Secondly, roberta-BilstMCRFmodel is constructed based on deep learning method, and object image is extracted from ancient poetrycorpus. Then, The Whole Tang Dynasty Poems and some Song Dynasty poetry resources are used to verifythe feasibility and universality of the model. Finally, the object image database of The Whole Tang DynastyPoems is constructed successfully, and the distribution law of the object images is preliminarily analyzed.After using the automatic tagging corpus training model, the F1 scores of common nouns, time nounsand place names reached 89.6%, 93.3% and 93.6% respectively. The model was transferred to the SongDynasty poetry corpus that was not used for training, and the extraction density was 4.5 objects per poem,which showed the ability to discover unknown words, indicating that the model has good universality andexpansibility.

刘懋霖赵萌王昊（南京大学信息管理学院江苏省数据工程与知识服务重点实验室）. 面向古诗词的物象库构建方法及其分布规律研究[J]. 图书馆杂志, 2024, 43(393): 96-108.

Liu Maolin, Zhao Meng , Wang Hao( School of Information Management, NanjingUniversity, Jiangsu Key Laboratory of Data Engineering and Knowledge Service). Research on the Construction Method and Distribution Law of Object-Image Database for Ancient Poetry[J]. Libraly Journal, 2024, 43(393): 96-108.

参考文献

[ 1 ] 欧阳剑. 面向数字人文研究的大规模古籍文本可视化分析与挖掘[J]. 中国图书馆学报，2016，42（2）：66—80.

[ 2 ] 胡昊天，张逸勤，邓三鸿，等. 面向数字人文的《四库全书》子部自动分类研究——以SikuBERT 和Siku Ro BERTa 预训练模型为例[J/OL].图书馆论坛：1-16[2022-02-14]. http://kns.cnki.net/kcms/detail/44.1306.G2.20211017.1823.002.html.

[ 3 ] 杜悦，王东波，江川，等. 数字人文下的典籍深度学习实体自动识别模型构建及应用研究[J].

[ 4 ]袁悦，王东波，黄水清，等. 不同词性标记集在典籍实体抽取上的差异性探究[J]. 数据分析与知识发现， 2019， 3（3）： 57—65.

[ 5 ] 常博林，万晨，李斌，等. 基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例[J]. 图书情报工作，2021，65（22）： 134—142.

[ 6 ] 程修平.《文心雕龙》“物象”说[J]. 辽东学院学报（社会科学版），2021，23（1）：92—98.

[ 7 ] 蒋寅. 语象·物象·意象·意境[J]. 文学评论，2002（3）： 69—75.

[ 8 ] 欧阳剑. 大数据视域下人文学科的数字人文研究[J]. 图书馆杂志， 2018， 37（10）： 61—69.

[ 9 ] 王兆鹏，邵大为. 数字人文在古代文学研究中的初步实践及学术意义[J]. 中国社会科学，2020（8）： 108—129；206—207.

[10] 王东波，刘畅，朱子赫，等. SikuBERT 与SikuRoBERTa：面向数字人文的《四库全书》预训练模型构建及应用研究[J]. 图书馆论坛，2022， 42（6）： 31—43.

[11] 刘江峰，冯钰童，王东波，等. 数字人文视域下SikuBERT 增强的史籍实体识别研究[J]. 图书馆论坛， 2022， 42（10）： 61—72.

[12] 林立涛，王东波，刘江峰，等. 数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J]. 图书馆论坛， 2022，42（10）： 42—50.

[13] 耿云冬，张逸勤，刘欢，等. 面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J]. 图书馆论坛， 2022， 42（6）：55—63.

[14] 孙文龙，张逸勤，王凡铭，等. 面向数字人文的典籍语义词汇抽取研究——以SikuBERT 预训练模型为例[J]. 图书馆论坛， 2022， 42（10）：31—41.

[15] 张卫，王昊，邓三鸿，等. 面向数字人文的古诗文本情感术语抽取与应用研究[J]. 中国图书馆学报， 2021， 47（4）： 113—131.

[16] 宋雪雁，霍晓楠，刘寅鹏，等. 数字人文视角下《全唐诗》贬谪诗人的时空轨迹分析[J]. 图书情报工作， 2022， 66（7）： 26—34.

[17] 高劲松，张强，李帅珂，等. 数字人文视域下诗人的时空情感轨迹研究——以李白为例[J]. 数据分析与知识发现， 2022， 6（9）： 27—39.

[18] 邱伟云，严程. 心寄乐园，凝望人间：中唐诗空间方位的数字人文研究[J]. 西南民族大学学报（人文社科版）， 2020， 41（8）： 161—171.

[19] 周莉娜，洪亮，高子阳. 唐诗知识图谱的构建及其智能知识服务设计[J]. 图书情报工作，2019，63（2）：24—33.

[20] 郑昂，曾建勋. 数字图书馆学者库构建方式研究[J]. 图书情报工作，2020，64（5）：133—140.

[21] 陈力. 数字人文视域下的古籍数字化与古典知识库建设问题[J]. 中国图书馆学报， 2022，48（2）： 36—46.

[22] 王美艳，赵伟. 基于唐诗语料库“词”的提取及深入研究[J]. 长春工业大学学报（自然科学版），2005（3）：217—220.

[23] 胡吉明，钱玮，文鹏，等. 基于结构功能和实体识别的文本语义表示——以病历领域为例[J].数据分析与知识发现， 2022， 6（8）： 110—121.

[24] 范涛，王昊，陈玥彤. 基于深度迁移学习的地方志多模态命名实体识别研究[J]. 情报学报，2022， 41（4）： 412—423.

[25] 曹树金，岳文玉. 基于深度学习的中共党史文献命名实体识别研究[J]. 情报资料工作， 2022，43（5）： 81—88.

[26] 赵蕊洁，佟昕瑀，刘小桦，等. 基于神经网络的医药科技论文实体识别与标注研究[J]. 数据分析与知识发现， 2022， 6（9）： 100—112.

[27] 张云秋，汪洋，李博诚. 基于RoBERTa-wwm 动态融合模型的中文电子病历命名实体识别[J].数据分析与知识发现， 2022，6（ Z1）： 242—250.

[28] 王燕玲. 论命名实体识别技术在司法大数据中的适用[J]. 政法论坛， 2022， 40（5）： 40—52.

[29] 巩一璞，王小伟，王济民，等. 命名实体识别技术在“数字敦煌”中的应用研究[J]. 敦煌研究，2022（2）： 149—158.

[30] Murthy R， Mitesh M K， Bhattacharyya P. ImprovingNER Tagging Performance in Low-ResourceLanguages via Multilingual Learning[J]. ACMTransactions on Asian and Low-Resource LanguageInformation Processing（ TALLIP）， 2018， 18（2）：1—20.

[31] Sufeng Duan， Hai Zhao. Attention Is All You Needfor Chinese Word Segmentation[J]. CoRR， 2019，abs/1910.14537.