Please wait a minute...
档案学研究  2025, Vol. 39 Issue (2): 130-140    DOI: 10.16065/j.cnki.issn1002-1620.2025.02.015
  档案信息化 本期目录 | 过刊浏览 |
大模型驱动档案开放智能审核方法研究:动因、框架与实践
刘力超1,2,陈晓珑1,牛力1
1 中国人民大学信息资源管理学院 北京 100872
2 中国人民大学档案事业发展研究中心 北京 100872
Study on LLM-driven Intelligent Appraisal Methods for Archives Opening: Motivation, Framework and Practice
Lichao Liu1,2,Xiaolong Chen1,Li Niu1
1 School of Information Resource Management, Renmin University of China, Beijing 100872
2 Archival Undertaking Development Research Center, Renmin University of China, Beijing 100872
全文: HTML    PDF(2005 KB)  
输出: BibTeX | EndNote (RIS)      
摘要: 

档案开放智能审核是加快档案开放进程,满足人民群众日益增长的档案利用需求,实现档案工作“四个好”“两个服务”的重要途径。本文首先梳理开放审核的智能技术应用需求,分析大模型工作应用的技术适应性。其次,提出大模型驱动档案开放智能审核方法框架,包含数据汇聚、模型训练、审核推理、流程嵌入四个逐步递进的层次。最后,联合“省-市-区”三级共计16家国家档案馆开展方法实践,验证方法可行性与有效性。本文研究为档案开放审核提质增效,有利于推动档案工作数智转型升级,对我国档案开放审核工作具有重要实践意义。

关键词 档案开放智能审核大模型档案开放    
Abstract

Intelligent appraisal for archives opening is a crucial method for accelerating the process of archives opening, meeting the growing needs of society and the people for archives utilization, and achieving the "Four Goods" and "Two Services" in archival work. This paper first sorts out the requirements for the application of intelligent technology in open appraisal and analyzes the technical adaptability of Large Language Model(LLM) in practical applications. Furthermore, it proposes a framework for LLM-driven intelligent appraisal methods for archives opening, which includes four progressive levels: data aggregation, model training, appraisal inference and process embedding. Finally, a total of 16 public archives at the "province-city-district" levels were involved in the method practice to verify its feasibility and effectiveness. The research of this paper contributes to improving the quality and efficiency of archives opening appraisal, is beneficial for promoting the digital and intelligent transformation and upgrade of the archives work, and has important practical significance for China's archives opening appraisal work.

Key wordsarchives opening intelligent appraisal    large language model    archives opening
出版日期: 2025-04-28
通讯作者: 陈晓珑   
引用本文:

刘力超, 陈晓珑, 牛力. 大模型驱动档案开放智能审核方法研究:动因、框架与实践[J]. 档案学研究, 2025, 39(2): 130-140.
Lichao Liu, Xiaolong Chen, Li Niu. Study on LLM-driven Intelligent Appraisal Methods for Archives Opening: Motivation, Framework and Practice. Archives Science Study, 2025, 39(2): 130-140.

链接本文:

https://journal12.magtechjournal.com/Jwk_dax/CN/10.16065/j.cnki.issn1002-1620.2025.02.015      或      https://journal12.magtechjournal.com/Jwk_dax/CN/Y2025/V39/I2/130

[1] 卢祥娣. 档案划控开放工作若干问题与思考[J]. 档案与建设, 2013(S1):18-19.
[2] ZHAO W X, ZHOU K, LI J, et al. A survey of large language models[DB/OL].[2024-09-28]. https://arxiv.org/abs/2303.18223.
[3] 牛力, 金持, 黎安润泽. 大模型在档案工作数智转型中的应用:新机遇、新模式和新转变[J]. 档案学通讯, 2024(6):30-38.
[4] 聂博馨, 曹月. 利用人工智能及自然语言技术辅助档案分级开放审核研究[J]. 黑龙江档案, 2024(2):14-17.
[5] 刘丽, 王兆伟, 张明智, 等. 生成式人工智能对档案工作的影响—从ChatGPT谈起[J]. 浙江档案, 2023(9):47-50.
[6] 刘越男, 张茜雅, 杨建梁. 大语言模型在档案开放审核中的应用框架与路径探究[J/OL]. 档案学通讯. https://doi.org/10.16113/j.cnki.daxtx.20240923.001.
[7] 杨扬, 孙广辉, 韩先吉. 敏感词全文比对在档案开放审核中的应用实践[J]. 中国档案, 2020(11):58-59.
[8] 王楠, 丁原, 李军. 语义层次网络在文书档案开放审核中的应用[J]. 档案与建设, 2022(6):55-60.
[9] 李军, 徐志国, 王楠. 智能语义助推档案开放审核的研究与实践[J]. 中国档案, 2023(11):56-57.
[10] 黄建峰, 颜梓森, 张枫旻, 等. 福建:运用人工智能技术搭建开放审核模型[J]. 中国档案, 2023(7):27-29.
[11] 毛海帆, 李鹏达, 傅培超, 等. 基于数据挖掘技术构建辅助档案开放鉴定模型[J]. 中国档案, 2022(12):29-31.
[12] 陈茜月. 基于神经网络的档案开放鉴定智能模型研究[J]. 档案管理, 2022(5):56-57.
[13] 殷名, 聂云霞, 李家霖. 基于神经语义分析的档案智能开放鉴定模型构建探析[J]. 档案学刊, 2022(2):46-55.
[14] 李轶昶, 林空. “数智”为目标的数字档案馆迭代升级实践—以浙江省档案馆为例[J]. 浙江档案, 2023(5):13-15.
[15] 福建省档案局、 档案馆项目组. 基于数字档案的人工智能辅助档案开放审核系统实现研究[J]. 浙江档案, 2022(10):40-43.
[16] 安徽省档案馆课题组. 人工智能技术在档案划控上的应用研究[J]. 中国档案, 2024(5):64-65.
[17] 罗人芳. 档案开放鉴定系统全程管理及应用实践研究[J]. 中国档案, 2023(11):54-55.
[18] 周友泉, 连波, 曹军. “浙里数字档案”重大应用场景实践—“档案AI辅助开放审核”组件的性能与应用[J]. 浙江档案, 2022(11):22-24.
[19] 卞咸杰. 基于智能工作流技术的档案开放审核系统设计与实现[J]. 档案管理, 2023(6):84-87.
[20] SÁNCHEZ D, BATET M, VIEJO A. Detecting sensitive information from textual documents: an information-theoretic approach[C]// TORRA V, NARUKAWA Y, LÓPEZ B, et al. Modeling Decisions for Artificial Intelligence. MDAI 2012. Springer, 2012:173-184.
[21] MCDONALD G, MACDONALD C, OUNIS I, et al. Towards a classifier for digital sensitivity review[C]// RIJKE M, KENTER T, VRIESET A P, et al. Advances in Information Retrieval. ECIR 2014. Springer, 2014:500-506.
[22] SOUZA R R, COELHO F C, SHAH R, et al. Using artificial intelligence to identify state secrets[DB/OL].[2024-09-28]. https://arxiv.org/abs/1611.00356.
[23] JUEZ-HERNANDEZ R, QUIJANO-SÁNCHEZ L, LIBERATORE F, et al. AGORA: an intelligent system for the anonymization, information extraction and automatic mapping of sensitive documents[J]. Applied Soft Computing, 2023, 145: 1-11.
[24] CHAKARAVARTHY V T, GUPTA H, ROY P, et al. Efficient techniques for document sanitization[C]// CIKM '08: proceedings of the 17th ACM conference on information and knowledge management. New York: ACM, 2008:843-852.
[25] ABRIL D, NAVARRO-ARRIBAS G, TORRA V. On the declassification of confidential documents[C]// Modeling Decision for Artificial Intelligence. MDAI 2012. Springer, 2011:235-246.
[26] MCDONALD G, MACDONALD C, OUNIS I. How the accuracy and confidence of sensitivity classification affects digital sensitivity review[J]. ACM Transactions on Information Systems, 2020(1):1-34.
[27] MCDONALD G, MACDONALD C, OUNIS I. Towards maximising openness in digital sensitivity review using reviewing time predictions[C]// Advances in Information Retrieval. ECIR 2018. Springer, 2018:699-706.
[28] 张梦怡. 馆藏档案开放审核新路径研究[J]. 浙江档案, 2023(9):51-53,57.
[29] 谢永宪, 王巧玲, 刘湘娟, 等. 我国档案开放审核工作调研与分析[J]. 山西档案, 2023(5):156-164.
[30] [46] 国家档案局. 2023年度全国档案主管部门和档案馆基本情况摘要[EB/OL].[2024-09-23]. https://www.saac.gov.cn/daj/zhdt/202409/fd579fbcb59f4f4eae534495f2170849.shtml.
[31] 林红. 全省市、县国家综合档案馆档案开放审核工作调研报告[J]. 四川档案, 2023(4):11-12.
[32] 聂博馨, 邱文昱. 档案开放审核工作开展现状及发展路径研究—以黑龙江省档案开放审核工作为例[J]. 黑龙江档案, 2023(6):17-20.
[33] 范苗苗. 浅谈如何做好县级档案馆档案开放工作[J]. 山东档案, 2023(5):52-53.
[34] 潘裕骏. 关于档案开放审核工作的若干思考—以长三角地区省级国家综合档案馆为例[J]. 浙江档案, 2022(9):51-53.
[35] 于海娟. AI赋能:探索人工智能在档案开放审核中的应用[J]. 档案天地, 2024(7):22-24.
[36] 刘金霞. 试论档案开放审核人才队伍的建设策略[J]. 四川档案, 2024(3):35-37.
[37] 马凤云, 马秀艳. 贯彻《国家档案馆档案开放办法》提高新时代档案开放工作水平[J]. 中国档案, 2023(4):32-33.
[38] NAVEED H, KHAN A U, QIU S, et al. A comprehensive overview of large language models[DB/OL].[2024-10-05]. https://arxiv.org/abs/2307.06435.
[39] HADI M U, QURESHI R, SHAH A, et al. A survey on large language models: applications, challenges, limitations, and practical usage[DB/OL].[2024-11-10]. https://www.techrxiv.org/doi/full/10.36227/techrxiv.23589741.v1.
[40] SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge[DB/OL].[2024-10-06]. https://arxiv.org/abs/2212.13138.
[41] CUI J, LI Z, YAN Y, et al. Chatlaw: open-source legal large language model with integrated external knowledge bases[DB/OL].[2024-10-06]. https://openreview.net/forum?id=Cjas49BCAf.
[42] WU S, IRSOY O, LU S, et al. Bloomberggpt: a large language model for finance[DB/OL].[2024-10-17]. https://arxiv.org/abs/2303.17564.
[43] SILVA B, NUNES L, ESTEVÃO R, et al. GPT-4 as an agronomist assistant? answering agriculture exams using large language models[DB/OL].[2024-11-19]. https://arxiv.org/abs/2310.06225.
[44] TAYLOR R, KARDAS M, CUCURULL G, et al. Galactica: a large language model for science[DB/OL].[2024-10-19]. https://arxiv.org/abs/2211.09085.
[45] BI K, XIE L, ZHANG H, et al. Accurate medium-range global weather forecasting with 3D neural networks[J]. Nature, 2023, 619: 533-538.
[47] OpenAI. Learning to reason with LLMs[EB/OL].[2024-09-25]. https://openai.com/index/learning-to-reason-with-llms/.
[48] MINAEE S, MIKOLOV T, NIKZAD N, et al. Large language models: a survey[DB/OL].[2024-11-20]. https://arxiv.org/abs/2402.06196.
[49] 杨瑞仙, 李兴芳, 王栋, 等. 隐私计算的溯源、现状及展望[J]. 情报理论与实践, 2023(7):158-167.
[50] 张斌, 高晨翔, 牛力. 对象、结构与价值:档案知识工程的基础问题探究[J]. 档案学通讯, 2021(3):18-26.
[51] HU Z, WANG L, LAN Y, et al. Llm-adapters: an adapter family for parameter-efficient fine-tuning of large language models[DB/OL].[2024-10-20]. https://arxiv.org/abs/2304.01933.
[52] ZHANG N, YAO Y, TIAN B, et al. A comprehensive study of knowledge editing for large language models[DB/OL].[2024-10-20]. https://arxiv.org/abs/2401.01286.
[53] ZHANG N, TIAN B, CHENG S, et al. InstructEdit: instruction-based knowledge editing for large language models[DB/OL].[2024-10-21]. https://arxiv.org/abs/2402.16123.
[54] Daniel K. Thinking, fast and slow[M]. New York: Farrar, Straus and Giroux, 2017:4.
[55] SUN J, ZHENG C, XIE E, et al. A survey of reasoning with foundation models[DB/OL].[2024-10-22]. https://arxiv.org/abs/2312.11562.
[56] 施浩然, 吕元智. 我国档案开放智能审核问题与优化策略研究[J]. 山西档案, 2024(6):20-26.
[57] 王巧玲, 王欣. 档案开放审核的结果及其标注问题探究[J]. 北京档案, 2023(12):11-14.
[58] MUENNIGHOFF N, WANG T, SUTAWIKA L, et al. Crosslingual Generalization through Multitask Finetuning[DB/OL].[2024-10-22]. https://arxiv.org/abs/2211.01786.
[1] 孙大东, 柴艺喆. 信息生态理论视域下综合档案馆档案开放激励机制探析[J]. 档案学研究, 2025, 39(1): 88-96.
[2] 郭若涵. 城建档案馆档案开放的法律要求、现实困境与化解路径[J]. 档案学研究, 2024, 38(6): 22-30.
[3] 刘子聪. 《中华人民共和国档案法实施条例》的功能定位、缺憾检视与优化路径[J]. 档案学研究, 2024, 38(5): 64-70.
[4] 苗运卫. 国有档案公布权争议的理论回应与规范调适[J]. 档案学研究, 2024, 38(4): 49-56.
[5] 王巧玲, 丁德胜, 谢永宪. 本土化实践背景下档案开放审核跨学科理论基础审视[J]. 档案学研究, 2024, 38(3): 13-18.
[6] 刘越男, 贺谭涛, 何思源. 践行“三个走向”的时代意义、现实成就与行动展望[J]. 档案学研究, 2024, 38(2): 4-12.
[7] 肖秋会, 王玉, 张博闻. 档案开放审核自由裁量权控制机制研究[J]. 档案学研究, 2023, 37(6): 61-68.
[8] 王子鹏, 杜雨桐. 基于案例探究非政府机构电子档案社会信任困境与对策[J]. 档案学研究, 2023, 37(3): 73-78.
[9] 胡大伟. 国有档案开放中个人信息处理活动的法理逻辑及规范架构[J]. 档案学研究, 2023, 37(2): 59-66.
[10] 姚静, 徐拥军. 构建档案开放审核免责机制的必要性、困境与策略[J]. 档案学研究, 2023, 37(2): 74-80.
[11] 赵彦昌,姜珊. 问题与方法:清代司法档案整理与法律史研究的双向互动[J]. 档案学研究, 2022, 36(5): 142-148.
[12] 肖秋会,张博闻. 档案开放负面清单制度构建:逻辑与框架[J]. 档案学研究, 2022, 36(4): 66-73.
[13] 陈忠海,娄海婷. 比较法视域下中外档案开放利用政策调查研究及启示[J]. 档案学研究, 2020, 34(6): 70-77.
[14] 马仁杰,李曼寻. 论“互联网+”时代档案价值与档案利用的关系[J]. 档案学研究, 2020, 34(6): 104-114.
[15] 李少建. 英国档案封闭期再认识[J]. 档案学研究, 2019, 33(6): 122-125.