本文简要概括了笔者主持的几项国家自然科学基金项目在数字信息长期保存研究上的前期成果,提出了制约当前我国数字信息资源长期保存的三大问题:一是机构信息系统设计缺乏按需整合业务信息流与归档信息流,造成数字信息在生命周期管理过程中的管理链断裂;二是档案数据远程异地转移保存,急需出台保障信息安全与知识产权的相关法规与制约措施;三是在高信任度的数据灾备市场环境形成之前,地方政府的“电子政务灾难备份中心”需要扩展公共服务功能,为中小型机构的档案数据的灾备管理提供服务。
This article briefly summarizes the preliminary achievements of our researches on the Long-term Preservation of Digital Information which are funded by the National Natural Science Funds. Then it brings forward the three current problems which restrict the long-term preservation of digital information in China. One problem is that institutions didn’t base on requirements to integrate the information flow of business with the workflow of archiving in their information system designing, as a result the chain of digital record management was broken in their lifecycle management. The other issue is that when we remote backup and transfer the archival data for preservation, we needed to develop laws, regulations and restraining measures as soon as possible to protect the information security and intellectual property. Before the highly trustworthy market of data disaster recovery is formed, the e-Government Disaster Recovery Centre of each local government needs to extend its public services in order to help medium-sized and small institutions in their disaster recovery management of archival data.
新世纪初,我们开始接受国家自然科学基金资助,着手数字资源长期保存的研究。五年前,我们关注的仅仅是具有保存价值的数据存储安全;今天我们认为,网上办公形成的大量重要记录并非通过一个“另存为”转移到数据介质上进行安全存储就可以达到保存数字记录的目的。围绕这个问题,我们对当前影响我国数字信息长期保存的问题进行了新的研究,并提出了我们的建议。
30多年来,随着我国操作系统和文字处理软件的发展,格式的不兼容以及系统的异构成为阻碍数字信息长期保存的主要障碍。2001年,我们获得了中国国家自然科学基金委的资助,开展了“保证数字信息长期可读的管理方案”研究(71400021G030802)。在这个项目研究中,我们进行了大量调研,对过时文档格式向当前技术平台迁移的可能性进行了探索,发现大多数国内已淘汰的文档格式是可以迁移到当前技术平台上的。
图1是当时调研的我国常见文档格式的产生时期。
此外,我们还对这些文档相互转换的安全性和相应的处理办法进行了探讨。
转换中能否完整保留原文件的所有信息是转换中首先要考虑的问题,如作者、创建日期、背景等。如果拟转换的文件不多,这类信息是可手工添加补充上去的。一般说来,象DOC这样的文件在转换成其他文件的时候,其附加信息是难以全部保留的,但最重要的基本信息可以被转换。
格式转换中,文件原始日期的保留比较棘手,因为一般系统将新文件的创建日期默认为文件的日期。弥补这一缺陷的方法,除先修改系统日期再保存文件外,还可使用TurboC2.0的编辑器中的Touch程序,这个类似DOS命令的执行文件可以方便地修改文件的创建日期。
这些问题对于一些具有凭证性的文件是十分棘手的,必须建立一套相应的证据保全制度去控制转换过程,以保证文件转换的真实性。对于这类文件,若不是一定要以电子版形式保存,可考虑打印输出,以避免人为操作带来的问题。
我们还对数据存储介质的安全与数据恢复进行了研究,并编写、出版了《拯救数字信息:数据存储安全管理方案》(科学出版社2004年版)。
为了深入研究我国图书馆、档案馆馆藏数字资源的长期保存管理方案,2003年国家自然科学基金对我们主持的项目“中国文化数字资源保存库的国家战略研究”(70373048)进行了资助。在3年的项目研究中,我们取得了以下一些成果:
(1)在调研基础上,首次用调研数据说明,我国馆藏数据资源存在的主要隐患。
(2)提出了保存我国馆藏数字文献的系列管理战略,如在国内首次提出“建立中文Web档案馆”的构想及相关的可操作性的实施方案;系统地分析了我国数字文献的数据灾难与风险因子,首次提出我国文献资源灾备中心的建设原则与可持续运营模式。②
随着国家信息化建设的不断深入,信息资源的互通共享与再利用已逐渐成为信息化建设的重要课题。我国政府不断地推出系列管理方案与规范,推动数字资源共享平台的建设,例如:③
2001年,国务院办公厅秘书局制订的《电子公文传输管理暂行办法》首先在6个省、直辖市试点推行。
2003年,在试点的基础上,国务院办公厅正式颁发了《电子公文传输管理办法》(国办函〔2003〕65号)文件。
2005年初,《基于XML的电子公文格式规范》发布。
2005年底,我国县级以上政府普遍开通了电子公文系统。各省级以下地方政府纷纷根据国家《电子公文传输管理办法》制订了地方规定。
除以上公文管理的规范发布外,我国在电子商务、教育资源库等方面也出台了类似管理规范,使得我国重要数据的创建、传输逐步趋向规范化。当然,由于各地在信息化水平上的差异,以及对某些问题认识的不同,还是存在异构数据的产生与采集困难等问题。例如:
2003年,济宁市人民政府办公室印发的《全市政府系统电子公文传输管理暂行规定的通知》(济政办发〔2003〕88号)第八条,要求电子公文一般采用S2格式或其他指定格式。
2004年,云浮市出台的《云浮市电子公文和信息交换管理规定(试行)》(云办发〔2004〕32号)的第五条要求,电子公文一般采用S2格式或其他指定格式。
2004年颁发的《福州市电子公文传输系统普通电子公文传输管理暂行办法》,要求传输的文件格式为:S2、S72、S92、WORD、WPS、EXCEL、POWERPOINT、PS、PDF、TXT、XML。
2006年发布的《肥城市政府系统电子公文传输管理暂行办法》( 肥政办发〔2006〕31号)第五条要求电子公文一般采用PS格式或其他指定格式。
2008年,《佛山市电子政务专网及其应用系统暂行管理规定》要求公文的正文只能是MS WORD或WPS形式的电子文件,而附件可以是任何格式文档。
尽管格式不尽完全统一(也没有必要强求一致),但大多是可以相互转换,便于共享的,例如S2、S72、S92、PS及Word都可以转换为PDF等。随着标准的逐步完善,这些问题都很容易得到解决。
随着我国数字化技术与计算机网络的发展,以及电子公文处理系统在各行各业的广泛使用,更多的信息直接以数字形式产生,更多的数字记录呈现多媒体趋势,数字信息的长期保存并非仅仅采用开放文档格式或是在良好的环境下保存就可以达到真实、完整与有效保存的目的。
根据我们在企业与某些政府机构调研发现,当前在电子文档系统内流动或在线存储的数据,一旦离线存储,很多问题就浮现出来。例如:
一是审批与修改的痕迹在OA系统清楚保留,一旦离线归档保存,所有的痕迹都消失了;
二是在线期间可以追踪到数字记录的来源与背景,离线保存后全部丢失了;
三是远端异地灾备平台建设比过去考虑的问题更加复杂。
以上这些问题的出现,使得数字信息无法在其生命周期内保持真实与完整,许多重要信息会在脱离其创建环境后丢失。
怎样使数字信息在其生命周期的任何一个阶段都保持真实与完整,特别是原生性的数字信息, 2007年我们获得了国家自然科学基金的再次资助(70773088)并正在展开研究。
通过研究我们初步认为,数字信息在其生命周期管理过程中出现断层是造成数字信息难以真实地、完整地保存的最重要原因,这种断层需要科学管理加以弥合。
随着数字技术在公务管理中的普遍运用,以及IT技术的飞速发展,影响数字信息生命周期管理链断裂的因素较多,在我国当前最为严重的是,机构信息管理系统缺乏数字记录管理需求分析。
在数字环境中,记录的有效管理依赖于软件系统的周密而详细的设计,记录管理人员与业务人员都必须参与到初始的设计流程中,将业务流程管理与数字记录管理有效地整合在一起,使其既能支持当前的业务工作又能保证记录归档的实践。在实际工作中,机构的业务流程管理与数字记录管理是有区别的,这突出反映在两者不同的功能需求上。
业务流程管理支持所产生的信息满足现行活动,需要系统具有对业务信息可直接操作的功能,包括使存储的信息更易被识别、被获取,可以使用工作流软件来支持团队协同工作等。数字记录管理是为捕获数字记录并为它提供一个满足归档要求而提供的一个数字环境,它必须满足可采集与保存数字文档的内容、结构和背景等信息,必须确保记录具有适当的证明手续和审计线索,以满足机构内部与外部审计需求以及为法律提供证据。此外,它还应当具有说明创建文档的技术环境数据,以确保文档是可获取的、可理解的和可利用的。这些是信息管理系统对数字记录管理的最低需求。
数字记录管理与业务流程管理是同一系统必须具备的两个功能,这两个功能是紧密相连并具有重叠性的,可以不同方式与互补的方式对数字信息进行全面管理。这就需要在系统设计之初,通过软件包将两种功能需求整合在一起。这种整合既可为数字记录保存提供积极的管理工具,以确保满足法律、法人和研究的需要,也可以通过提供高性能的记录管理,增强机构的业务功能。为了实现这种无缝整合,在系统开发阶段进行“需求分析”是极为重要的。图2是机构信息管理系统开发流程图。
(1)需求分析
需求分析是指对机构信息系统功能要求的详细说明,通过制定设计计划说明书以明确记录管理与业务流程管理的整合,这是将记录生命周期管理的工具植入信息管理系统的关键。
功能需求说明书的设计是十分重要的,它直接关系到将来记录归档管理功能与业务流程管理功能的实现。部门文件管理人员与业务工作人员都必须参与该项设计,与IT技术人员或软件提供商共同讨论,确保支持记录归档管理的元数据与描述当前业务功能的元数据都能纳入系统设计中。
在需求分析过程中,元数据方案的提出是极其重要的,它关系到记录与其生命周期依赖关系的保存,关系到用户对记录的真实性、完整性的检查以及对业务流程的理解。高质量的元数据方案,应确保记录管理系统支持业务流程,而不是阻碍业务流程;可直接通过用户界面支持终端用户对新形成记录的捕获与归档,确保整合后的记录能被完整地采集与管理。特别需要注意的是,元数据方案的制定是机构职能部门与归档管理部门双方共同的责任,需要沟通与协商,使业务流管理的元数据方案与归档管理元数据方案互为补充,而不是重复。在我国电子政务与企业信息化建设方面,档案管理职能部门应主动与机构业务管理部门加强联系,以协调元数据方案的制定。
(2)需求细化
设计人员根据需求选择技术,设计相应的软件体系结构。
(3)产品构造
根据软件体系结构,运用相应的技术构造软件产品。
(4)评审
对新系统运转的质量进行检查与监控,判断系统是否满足业务管理与记录管理的功能需求,是否需要改变元数据方案或是应用程序,使它满足预定的需求。
(5)产品移交
移交软件产品,包括系统解决方案的展示,用户培训与工作流程的解释。
以上系统的设计与开发,具有以下优势:
(1)促进了对记录的保护,通过无缝的记录管理流程保持了记录的证据价值,规避了记录的今后法律问题;
(2)业务流程管理与记录管理的整合,便于对记录与文档的标识,有利于机构信息资源库的整合;
(3)为长期真实地、完整地与有效地保存数字记录提供了技术保障。
以上管理策略的成败,取决于对用户需求进行彻底的、严格的定义表述,没有任何一个软件包或软件提供商可以替代用户对本机构的信息管理需求进行完整的定义表述。只有在机构的信息管理系统设计之初,就将业务流程管理与记录归档管理的所有功能需求全面提出并设计到系统中,才能打造高质量的信息管理平台,才能规避系统运行后对其配置的不断修改。
目前,我国机构的系统开发中,缺乏的就是对以上关键问题的认识,主要表现在:一是新系统开发时,缺乏对本机构用户需求的优先考虑;二是没有将记录管理需求融入系统设计中。
很多机构的信息管理系统都是由软件商自主开发的,很少融入该系统的用户的特定需求。特别是商业性开发的软件产品,其关注的是业务流程管理而不是记录管理,系统流程还是停留在手工处理模式上,软件的开发没有考虑业务流程的再造和整合,由此造成数字记录在生命周期管理中出现断层。很多时候就是发现问题后,请开发商去修改配置,为此付出额外费用而使系统造价增高。更严重的是,新提出功能的需求有可能与系统原有的需求不兼容,进而影响系统的正常运行与对记录的处理。由此付出的代价是,有些系统开发出来后无法应用而被搁置,或是数字记录无法自动采集而投入较多的人员进行元数据补录,由此造成重要记录痕迹丢失。
为避免以上问题的出现,需要注意以下两点:
(1)发布机构信息管理系统的功能需求标准
国家档案局要联合相关职能管理部门共同颁布信息管理系统的功能需求标准,对保证数字记录真实性、完整性与有效性的需求指标提出强制性要求,确保数字记录的凭证价值与管理价值,以及长期可读的可能性。同时,以法规的方式要求法人单位对信息管理系统的设计必须提供本机构的功能需求信息,避免国家在信息化建设上投入与产出的不平衡。
(2)加强交叉学科的人才培养
我国的专业教育过于狭窄,或是没有与时俱进地给受教育者及时补充相关领域的知识以紧跟信息化发展的步伐,这是一个很严重的问题。在数字记录的保存上,表现为当技术人员或是软件开发商要求用户提出本系统的功能需求时,管理人员却无法参与相关工作,更无法对系统的运作进行全面的评审,并提出完备的修改建议。由此,系统运行中的信息管理问题不断涌现,调整配置的要求不断提出,造价不断攀升,直到开发商拒绝修改而提出需要重新设计系统的回应。
这里的档案数据指的是具有长期保存价值的数据,这类数据无论是否保存在档案馆都存在着巨大风险,这类风险主要体现在:难以定期地介质更新与信息迁移,以及缺乏数据的灾备管理,⑤这是危及数据长期保存的另一类风险,降低这类风险的策略,在我国当前不是技术问题,而是急需有效的管理策略出台。
数据介质的定期更新与数据的技术迁移,是维护数字信息长期保存的必要措施。它需要投入大量的人力与物力,而绝大多数的公共管理机构并没有这笔专项经费可用于数据介质更新与数据的技术迁移。尽管数据介质的自身费用呈下降趋势,但投入这项工作的人工费用却是很高的,特别是管理与维护档案数据的人员编制很少,除日常数据管理工作外,机构内很难有专人可用于大规模的数据维护。借用商业机构的力量,在我国还不仅存在一个经费问题,而更多涉及到信息安全与知识产权问题,目前我国在这方面的市场环境尚未成熟。
随着自然环境的恶化以及恐怖主义的全球化,灾祸的预防对于长期保存的档案数据尤为必要,特别是原生性数据。这个问题已经被越来越多的机构与团体认识到,近几年由专业服务提供商运营的灾难备份服务机构在我国不断涌现,面向社会提供相关服务,包括数据存储服务、数据处理服务、与数据恢复服务等在内的灾难备份整体解决方案及服务。利用第三方提供的专业服务必然比业内共建或互为数据转移保存基地要经济得多,但对于长期保存的档案数据,一般都具有价值高、敏感性强等特点,商业运作的灾备中心的可信度是限制选择这类服务的瓶颈。加上保障这类商业服务诚信的法规与制约措施尚未出台,档案数据很难选择这类数据灾难风险管理平台。
随着电子政务工程的推进,各地方政府正在创建“电子政务灾难备份中心”,以降低电子政务信息的灾祸风险。从中国国情出发,各机构更信任政府所提供的公共服务。除一些国家专利数据、金融数据、国家基础数据库等有条件创建异地数据备份中心外,地方政府的“电子政务灾难备份中心”就是更多中小型机构的档案数据介质异地转移保存的最佳选择。因此,为了维护我国具有档案价值的数据安全,政府除尽早颁布可维护数据灾备市场诚信度的法规与制约措施外,在高信任度的数据灾备市场环境形成之前,需要扩展地方政府的电子政务灾难备份中心的服务功能,为更多的中小型机构的重要数据撑起一把可靠的安全伞。
The authors have declared that no competing interests exist.