图书馆杂志 ›› 2022, Vol. 41 ›› Issue (10): 25-34.
王晓雪1 化柏林2, 3
(1 北京大学软件与微电子学院 2 北京大学信息管理系 3 公共文化服务大数据
应用文化和旅游部重点实验室)
Wang Xiaoxue1, Hua Bolin2, 3 (1 School of Software and Microelectronics of Peking University; 2 Department of Information Management of Peking University; 3 Key Laboratory of Culture and Tourism of#br# Ministry of Public Cultural Services Big Data Application)
摘要:
公共文化云发展迅速,公共文化智慧化模式层出不穷,要对公共文化发展的整体现状进行实时的监测扫描与深入的分析挖掘,需要构建领域的主题词表,以增加分析挖掘的准确性以及数据分析结果的可读性。为此,如何基于政策法规、活动报道等文本内容,生成一部能够反映公共文化领域最新最全的词表,是公共文化大数据建设的一项重要内容。本文搜集了公共文化领域政策法律文件和政府公告、各地文化活动数据、学术论文、新闻报刊,通过自动抽取和人工标注获取其中的术语,采用规则方法、K-means、KNN 等多种方法对术语分类,形成术语词典。这部词典初步收录了公共文化相关的19 个大类、约2.8 万条词条,后续可继续扩展。