图书馆杂志

图书馆杂志 ›› 2022, Vol. 41 ›› Issue (5): 102-108.

• 信息管理 • 上一篇    下一篇

基于 BERT 和分面分类的多标签的南海证据性数据分类研究

彭玉芳1   石  进2   徐  浩1,2  杨海平2
(1  南京工程学院经济与管理学院 2  南京大学信息管理学院)
  

  • 出版日期:2022-05-15 发布日期:2022-05-24
  • 作者简介:彭玉芳  女,南京工程学院经济与管理学院,讲师。 研究方向:竞争情报、安全情报和文本挖掘。作者 贡献:提出论文思路、撰写,数据处理,论文修改。 E-mail:laisitianshi@163.com 江苏南京 211167 石   进 南京大学信息管理学院,教授。研究方向:安 全情报、大数据分析。作者贡献:论文研究思路讨论。 江苏南京 210046 徐   浩 南京工程学院经济与管理学院,副教授。研 究方向:智能信息处理、创新创业研究。作者贡献: 论文研究框架讨论、论文修改。 江苏南京 211167 杨海平 南京大学信息管理学院,教授。研究方向: 知识组织与知识服务、竞争情报与战略管理等。作者 贡献:论文研究思路讨论。 江苏南京 210046

Research on Multi-label Evidence Data of the South China
Sea Classification Based on BERT and Faceted Classification

Peng Yufang1 , Shi Jin2 , Xu Hao1, 2 , Yang Haiping2 (1 School of Economics &
Management, Nanjing Institute of Technology; 2 Department of Information Management, Nanjing University)
  

  • Online:2022-05-15 Published:2022-05-24
  • About author:Peng Yufang1 , Shi Jin2 , Xu Hao1, 2 , Yang Haiping2 (1 School of Economics & Management, Nanjing Institute of Technology; 2 Department of Information Management, Nanjing University)

摘要: 为了能更好地组织南海证据性数据,提高南海疆智库的检索性能,便于科研人员对南海 问题展开深入研究,本文融合了中国图书馆分类法的族性检索和分面分类法的特性检索,构建了 南海文献分类法,应用 BERT 预训练模型实现细粒度的多标签南海证据性数据的自动分类,并通 过数据库技术将南海证据性数据分为 12 个面进行组配检索。通过以上方法赋予每一条南海证据性 数据唯一的分类号和类名,形式化表示为南海证据性数据的数据分类 = 证据来源分类 + 证据的数 据体系分类 + 证据的数据分面分类。从更细粒度的视角,实现数据分类,与粗放式文献载体的分 类相比,数据分类更有利于展开数据挖掘,找到数据间潜在的关联关系,发现新的研究视角,是 科学研究创新的基础和保障。

关键词:

Abstract: In order to better organize the evidence data of the South China Sea, improve the retrieval function of the South China Sea Think Tank, and facilitate researchers to conduct in-depth research on the South China Sea issue, this paper combines the ethnic retrieval of the Chinese Library Classification and the feature retrieval of the faceted classification, constructs the South China Sea document classification, applies the BERT pre-training model to realize the automatic classification of the fine-grained multi-label South China Sea evidence data, and uses the database technology to divide the evidence data of the South China Sea into 12 facets for grouping and retrieval. Accordingly, each piece of South China Sea evidence data is given a unique classification number and category name, which is formally expressed as “the data classification of South China Sea evidence data = evidence source classification + evidence data system classification + evidence data facet classification”. From a more fine-grained perspective, data classification is realized. Compared with the classification of broad-type document carriers, data classification is more conducive to data mining, to the identification of potential relationship between data, and to the discovery of new research perspectives, which are the foundation of scientific research and innovation.

Key words:

data of the South China Sea