图书馆杂志 ›› 2023, Vol. 42 ›› Issue (390): 87-94.
余馨玲1 常 娥1,2
(1 东南大学经济管理学院 2 东南大学图书馆)
Yu Xinling1, Chang E1, 2(1 School of
Economics and Management, Southeast University; 2 Southeast University Library)
摘要:
古诗词地名实体识别不仅有助于深度挖掘古诗词文本之间的关联,而且有助于绘制中国诗歌版图分布,推动空间维度的中国古典文学研究。文章围绕南京城系统采集有关古诗词数据,采用BIOES 方法进行地名实体标注。针对古诗词领域训练数据匮乏、以字代词等问题,提出一种采用数据增强方法,同时融合预训练模型与条件随机场方法的古诗词地名识别模型,简称DABERT-CRF 模型。文章将训练数据采用实体交叉互换方法进行数据增强处理,然后通过预训练模型BERT 得到古诗词地名的上下文语义信息,最后利用条件随机场CRF 实现地名标签约束并生成全局最优地名序列。文章提出的DA-BERT-CRF 模型十折交叉实验平均精确率、平均召回率和平均F 值分别为86.49%、90.44%、88.35%。