Please wait a minute...
档案学研究  2024, Vol. 38 Issue (6): 110-119    DOI: 10.16065/j.cnki.issn1002-1620.2024.06.014
  档案信息化 本期目录 | 过刊浏览 |
基于数据清理的企业档案数据质量控制研究
张宁1,唐欣越2
1 中国人民大学信息资源管理学院 北京 100872
2 中海油田服务股份有限公司 廊坊 065201
Research on Quality Control of Enterprise Archives Data Based on Data Cleaning
Zhang Ning1,Tang Xinyue2
1 School of Information Resource Managemenet, Renmin University of China, Beijing 100872
2 China Oilfield Services Limited, Langfang 065201
全文: HTML    PDF(1252 KB)  
输出: BibTeX | EndNote (RIS)      
摘要: 

档案数据质量对于将数据视为资源、资产的现代企业来说至关重要。以数据形态存在的档案具有传统形态档案不具备的技术特性,同时承载了更高的价值期望。因此,数据产生主体需要更新档案数据质量控制理念与体系,全面提升档案数据质量,为资产化奠定基础。本文以企业档案数据为研究对象,基于已有档案数据质量控制研究成果与典型厂商数据质量控制体系,融合数据清洗技术与传统文件梳理理念,创新提出企业档案数据质量维度框架,构建企业档案数据质量控制体系,并借助元数据管理落地,帮助企业实现档案数据质量提升目标。

关键词 企业档案数据数据质量数据清理    
Abstract

The quality of archive data is paramount for modern enterprises that view data as a vital resource and asset. The archive in the form of data have the characteristics of variability that the traditional form archive do not have, carrying heightened expectations for value utilization. Consequently, the entities responsible for data generation must revamp their understanding and framework for archive data quality control, comprehensively enhancing data quality to lay a solid foundation for asset monetization. Focusing on enterprise archive data as the research subject, this paper integrates data cleaning technology with traditional file organization principles, building upon existing research on archive data quality control and typical vendor data quality control systems. It innovatively proposes a framework of quality dimensions specifically tailored for enterprise archive data. Furthermore, this paper constructs an enterprise archive data quality control system that leverages metadata management for implementation, aiming to assist enterprises in achieving their goal of enhancing the quality of their archive data.

Key wordsenterprise    archives data    data quality    data cleaning
出版日期: 2024-12-28
引用本文:

张宁, 唐欣越. 基于数据清理的企业档案数据质量控制研究[J]. 档案学研究, 2024, 38(6): 110-119.
Zhang Ning, Tang Xinyue. Research on Quality Control of Enterprise Archives Data Based on Data Cleaning. Archives Science Study, 2024, 38(6): 110-119.

链接本文:

https://journal12.magtechjournal.com/Jwk_dax/CN/10.16065/j.cnki.issn1002-1620.2024.06.014      或      https://journal12.magtechjournal.com/Jwk_dax/CN/Y2024/V38/I6/110

[1] 周林兴, 林凯. 大数据时代档案数据质量治理:因素、框架和路径[J]. 档案学研究, 2023(2):111-119.
[2] 周林兴, 崔云萍. 大数据视域下档案数据质量控制实现路径探析[J]. 档案学通讯, 2022(3):39-47.
[3] 何玲, 邢琳悦. 我国档案数据管理研究综述[J]. 山西档案, 2021(2):155-163.
[4] 晨光. 加强档案数据质量的管理[J]. 档案工作, 1993(2):35.
[5] 郝蕾. 加强档案数据治理提高数据质量之研究[J]. 四川档案, 2022(6):31-32.
[6] 熊兴江, 马敬东, 徐承中. 电子健康档案数据质量评估与治理的综述研究[J]. 中国卫生信息管理杂志, 2018(6):637-642.
[7] 尹翰. 大数据时代档案数据质量控制策略研究[J]. 办公室业务, 2023(14):164-166.
[8] 陈慧, 罗慧玉, 陈晖. 档案数据质量要素识别及智能化保障探究—以昆柳龙直流工程项目档案为例[J]. 档案学通讯, 2021(5):49-57.
[9] 王平, 陈秀秀, 李沐妍. 区块链视角下档案数据质量管理路径研究[J]. 档案学研究, 2023(2):120-127.
[10] 杨晶晶. 企业档案数据质量管理若干要务[J]. 浙江档案, 2021(1):60-61.
[11] 罗鹏. 建设领域从业人员档案数据质量管理研究[J]. 工程技术研究, 2022(9):154-156.
[12] 苏华权, 杨秋勇, 冯志鹏, 等. 基于IPv6流标签的企业资产档案主数据驱动质量控制方法[J]. 微型电脑应用, 2022(6):101-104.
[13] 卢星. 大数据的数据清洗技术及运用[J]. 电子技术与软件工程, 2019(9):157.
[14] Müller Heiko, Johann-Christoph Freytag. Problems, methods, and challenges in compreh-ensive data cleansing[J/OL].[2023-08-11]. https://www.researchgate.net/publication/228929938.
[15] Kim W, Choi B J, Hong E K, et al. A taxonomy of dirty data[J]. Data Mining&Knowledge Discovery, 2003(1):81-99.
[16] Rahm E, Do H. Data cleaning:problems and current approaches[J]. IEEE Data Engineering Bulletin, 2000(4):3-13.
[17] 刘喜文, 郑昌兴, 王文龙, 等. 构建数据仓库过程中的数据清洗研究[J]. 图书与情报, 2013(5):22-28.
[18] 郭志懋, 周傲英. 数据质量和数据清洗研究综述[J]. 软件学报. 2002(11):2076-2082.
[19] Oliveira P, Rodrigues F, Henriques P R. A formal definition of data quality problems[C]. Proceedings of the 2005 International Conference on Information Quality (MIT IQ Conference). 2005.
[20] 周健昌, 卜媛媛. 条件函数依赖及其在领域无关数据清洗中的应用[J]. 微型电脑应用, 2012(9):23-26,30.
[21] Song S X, Chen L. Differential dependencies: reasoningand discovery[J]. ACM Transactions on Database Systems(TODS), 2011(3):16.
[22] Wang J N, Tang N. Towards dependable data repairing with fixing rules[C]. Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, 2014:457-468.
[23] Fan W F, Li J Z, Ma S, et al. Towards certain fixes withediting rules and master data[J]. Proceedings of the VLDB Endowment, 2010(1-2):173-184.
[24] Interland M, Tang N. Proof positive and negative indata cleaning[C]. Proceedings of IEEE 31st International Conference on Data Engineering. 2015:18-29.
[25] Mayfield C, Neville J, Prabhakar S. Eracer database approach for statistical inference and data cleaning[C]. Proceedings of 2010 ACM SIGMOD International Conference on Management of Data. 2010:75-86.
[26] He J, Veltrie E, Santoro D, et al. Interactive and cleaning[C]. Proceedings of 2016 International deterministic data Conference on Management of Data. 2016:893-907.
[27] 郝爽, 李国良, 冯建华, 等. 结构化数据清洗技术综述[J]. 清华大学学报(自然科学版), 2018(12):1037-1050.
[28] 曹建军, 刁兴春, 陈爽, 等. 数据清洗及其一般性系统框架[J]. 计算机科学, 2012(S3):207-21.
[29] 韩京宇, 徐立臻, 董逸生. 数据质量研究综述[J]. 计算机科学, 2008(2):1-5,12.
[30] 郭志懋, 周傲英. 数据质量和数据清洗研究综述[J]. 软件学报. 2002(11):2076-2082.
[31] 卞咸杰. 大数据时代档案信息资源共享平台数据采集系统设计与应用[J]. 档案与建设, 2020(10):25-29.
[32] 周娟娟, 李泽锋, 叶丹云. 档案数据长期保存模型构建研究[J]. 北京档案, 2022(10):10-14.
[33] 范海斌, 李秋香. 数字矿山背景下大数据归档利用体系平台建设研究[J]. 现代信息科技, 2022(20):31-34.
[34] 陈明, 刘睿, 李乐, 等. 利用大数据技术提升电力客户档案资源管理和服务能力[J]. 电力大数据, 2022(2):9-1.
[35] 赵跃, 石郦冰, 孙寒晗. “档案数据”一词的使用语境与学科内涵探析[J]. 档案学研究, 2021(3):24-32.
[36] 陶水龙. 大数据视野下档案信息化建设的新思考[J]. 档案学研究, 2017(3):93-99.
[37] 金波, 添志鹏. 档案数据内涵与特征探析[J]. 档案学通讯, 2020(3):4-11.
[38] 金波, 杨鹏, 宋飞. 档案数据化与数据档案化:档案数据内涵的双维透视[J]. 图书情报工作, 2023(12):3-14.
[39] 吴哲, 丁海斌. “数据”概念史考略及“档案数据”概念解析[J]. 档案与建设, 2023(1):11-16.
[40] Bahde A. Conceptual data visualization in archival finding aids: preliminary user responses[J]. Portal: Libraries and the Academy, 2017(3):485-506.
[41] Mordell D. Critical questions for archives as Big Data[J]. Archivaria, 2019(87):140-161.
[42] EDRM. Archival Data[EB/OL].[2023-05-11]. https://www.edrm.net/glossary/archival-data/.
[43] 魏丽维. 大数据时代档案数据质量控制研究[J]. 兰台世界, 2024(2):69-71,74.
[44] 张夏子钰, 周林兴. 大数据时代档案数据质量:评估与优化[J]. 北京档案, 2023(5):15-18.
[45] 王曰芬, 章成志, 张蓓蓓, 等. 数据清洗研究综述[J]. 现代图书情报技术, 2007(12):50-56.
[46] 宫晓东. 企业档案管理[M]. 北京: 高等教育出版社, 1999:53-104.
[47] 梁凯, 方超, 刘怀兴. 信息系统全面数据质量管理研究[J]. 信息系统工程, 2016(1):55-57.
[48] 华为公司数据管理部. 华为数据之道[M]. 北京: 机械工业出版社, 2020:228-256.
[49] 冯惠玲, 刘越男. 电子文件管理教程[M]. 北京: 中国人民大学出版社, 2017:163.
[1] 颜巧雅, 覃兆刿. 肇兴与特质:中国近代企业档案工作管窥[J]. 档案学研究, 2024, 38(6): 125-133.
[2] 王婉萍, 郑志敏, 王茂焕. 民营经济档案监管原则、理念与方法[J]. 档案学研究, 2024, 38(6): 69-74.
[3] 吕元智. 面向多元化利用场景的档案资源数据化组织研究[J]. 档案学研究, 2024, 38(4): 68-76.
[4] 李宗富, 姜爱玲. 档案数据治理的伦理审视:内蕴、风险与路径[J]. 档案学研究, 2024, 38(4): 4-11.
[5] 金波, 杨鹏. 档案数据治理赋能的思维意象与行动具象[J]. 档案学研究, 2024, 38(3): 4-12.
[6] 俞佳,江若飞. 大数据时代行业档案数据管理研究—以铁路档案数据为例[J]. 档案学研究, 2024, 38(3): 129-134.
[7] 赵生辉, 闵冬元. 数据态档案叙事:原理、方法与实证[J]. 档案学研究, 2024, 38(2): 116-125.
[8] 宋帆帆, 苏君华. 数智驱动下档案公共服务价值共创:价值、模式与路径[J]. 档案学研究, 2024, 38(2): 30-37.
[9] 任琼辉, 解昊澄, 李璐璐. 互联网平台型企业档案重点监管:依据、原则与对象[J]. 档案学研究, 2023, 37(6): 69-75.
[10] 孔维冲. 档案信息资源赋能数字军队建设[J]. 档案学研究, 2023, 37(6): 110-118.
[11] 陈永生, 任珊珊, 刘晓怡. 近代广东海关档案数据库建设需求与策略研究[J]. 档案学研究, 2023, 37(6): 93-101.
[12] 金波, 添志鹏, 杨鹏. 大数据时代档案数据治理运行机制建构[J]. 档案学研究, 2023, 37(4): 65-73.
[13] 杨鹏. 大数据时代档案数据权利治理研究[J]. 档案学研究, 2023, 37(2): 36-42.
[14] 周林兴, 林凯. 大数据时代档案数据质量治理:因素、框架和路径[J]. 档案学研究, 2023, 37(2): 111-119.
[15] 王平, 陈秀秀, 李沐妍, 侯景瑞. 区块链视角下档案数据质量管理路径研究[J]. 档案学研究, 2023, 37(2): 120-127.