本文提出了一个基于OAIS模型的大学数字档案馆建设思路和设计规划,并结合国际通用的protégé工具系统对大学档案信息资源进行实用分类体系的初步设计。
This Essay Review on the Construction of Digitized Archives in Colleges and Universities Based on OAIS, and Also give a preliminary design on Practical Classification system of Archival Information Resources in Colleges and Universities combining with protégé.
随着计算机技术和网络技术的发展,档案的数字化和网络化建设成为当前档案馆工作的重心,如何将馆藏资源和正在各部门和各种网络环境下形成的档案资源有效地开发利用,为学校的各项工作提供便捷、有效、增值的信息服务,是当前高校档案工作中面临的重大课题。大学数字档案馆的建设是实现这一目标的有效途径。通过建立数字档案馆,利用数字化技术、网络和通讯技术,整体、统一地处理和解决档案信息采集、存储、传播与利用等相关问题,可最大程度地实现档案信息资源的共享、有效利用和传播,也有利于档案原件的保护和源远流传。对于档案馆而言,数字档案馆的建设可以使档案馆的工作职能由传统的保管利用为主转变为以开放式的、现代化的集成管理和利用服务为主,可以提高档案馆以及学校各部门文书工作和档案工作效率和管理水平,更有效地为学校教学、科研和管理决策服务。
数字档案馆源于传统档案馆,包含了传统档案馆的各个工作环节的应用,然而,其工作的内涵和外延又都得到了深化与拓展。它以统一的标准和规范为基础,以各种数字化档案信息为对象,以分布式档案资源库为支撑,以智能检索技术为手段,以宽带高速网络为传输通道,为用户的学习、工作、研究提供档案信息资源服务。它需要开放地集成分布的、异构的和多样化的数字档案信息资源,动态地构建若干服务系统,以不同的网络服务形式满足各种用户群体的相关信息需求。
大学数字档案馆建设思路的提出,主要是从数字档案馆长远发展出发,建设一个专业化、集约化、现代化的中国高校数字档案馆,构建种类齐全、内容丰富的数字化档案信息资源体系,形成拥有完备设施、配置齐全的数字保管环境,并集成先进的技术、专业的管理、多样化的服务于一体,保证其具有持续服务的能力和发展的潜力。
从当前数字信息环境的发展态势来看,各种数字信息应用系统之间的关联、融合和集成日益受到广泛地关注和重视,系统之间的开放和互操作性都成为数字信息系统设计和开发建设的重要考虑因素。开放存档信息系统参考模型(Reference Model for an Open Archival Information System ,简称OAIS)正是在这种背景下诞生的,并很快成为数字信息资源存档利用系统设计开发的重要参考依据。大学数字档案馆系统总体框架及应用系统的选型、设计和开发建设也可充分依托和参考OAIS模型进行,并在数字档案对象的创建、提交、转换、保存、管理、发布、利用、交换、共享等各个环节尽可能采用国际国内标准、业界规范或最佳实践等,保证系统具备良好的标准性和开放互操作性。
从支持档案数据的生产和加工环节来看,首先将考虑对来自于学校各个单位的各种类型的档案对象进行元数据描述与加工、数字档案内容的提交以及接受可能来自于其他系统的数据的导入等,提供可定制的元数据编辑界面以支持对不同类型档案对象的元数据描述和加工提交。在具体的SIP(Submission Information Package)格式的实现过程中,可以根据不同的档案对象类型及其元数据的封装格式,或者采用基于METS的统一封装格式。
在支持数据保存和管理的环节,主要涉及对人工或自动方式提交进来的SIP格式的数据进行适当的转换,并主要加入对数据来源、数据保存细节等方面的元数据描述信息的封装,支持符合AIP(Archival Information Package)逻辑格式的数据保存的目的,从而累计和形成总体的档案数据仓储。AIP的具体实现过程,与具体的软件设计和开发模式相关。
元数据仓储有两方面的作用和目的。一方面,它提供了对数字档案对象从内容描述和利用角度的元数据的存储和组织,并可能纳入AIP格式封装的范畴。另一方面,在这一基本框架中。它更多地定位于作为数字档案内容元数据索引的目的,支持面向用户的浏览和检索功能的方便实现。
档案信息资源实用分类体系,是基于Ontology构建的关于档案信息组织和利用的领域知识模型,有两方面的作用。一方面,作为数字档案对象描述和加工过程中,支持对相关内容进行规范化、知识化描述和加工。另一方面,支持对数字档案对象及其相关内容按照一定的知识属性进行关联和组织,提供面向用户的体系化、知识化浏览和检索功能和服务。
在数据的交换和共享的环节,将主要考虑支持和实现基于METS格式封装的OAI-PMH接口,满足在一定条件下向相关应用系统提供开放的数据获取接口。
大学数字档案馆的建设将遵循国际国家以及行业标准,并结合不同档案类型、原件质量、存储空间等因素进行综合考虑,在基于EAD元数据标准的基础上按照元数据应用规范的模式,建立针对不同档案对象的元数据应用规范。主要包括:
基于EAD定制和形成以下元数据应用规范:公文元数据应用规范、学籍档案元数据应用规范、教学档案元数据应用规范、学位论文元数据应用规范、工程图纸元数据应用规范、手稿书信日记类资源元数据应用规范、图片(像)元数据应用规范、音频资料元数据应用规范、视频资料元数据应用规范、其他特殊档案对象元数据应用规范。
主要包括:档案对象加工处理标准规范、档案数字化扫描加工规范、公文元数据加工处理规范、学籍档案数据加工处理规范、学位论文数据加工处理规范、工程图纸数据加工处理规范、手稿书信日记类数据加工处理规范、图片(像)数据加工处理规范、音频资料数据加工处理规范、视频资料数据加工处理规范。此外,档案的数字化加工 还要遵循档案法规标准、档案行业标准、国家档案管理标准和本单位制度规范。
采用国际通用的protégé工具系统建立档案分类及知识组织系统模型。
根据protégé工具系统功能的要求,按照大学档案资源的隶属关系和匹配需求,系统内设置资源、载体类别、文件类型、用户、资源管理规范、档案形成单位、访问权限、许可等类别。
按照馆藏资源内容,将档案资源分为党群、行政、人事、教学、科研、基建、设备、出版、外事、财会、人物等大类,每个大类下面又分若干小类,如党群下分党务综合、纪检、组织、宣传、统战、工会、团委几类,行政下设综合、人事、监察审计、武装保卫、总务等类,教学下设教学综合、招生、学籍管理、研究生教育、本科生教育、专科生教育等。每个类别的档案设置了不同的属性,包括案卷题名、文件题名、副题名及说明题名文字、来源、责任者、其他责任者、档号、缩微号、形成时间、密级、保管期限。
文件类型下设公文、手稿、日记、讲义、论文、著作、图纸、照片、其它等类,其中公文下分计划、总结、报告、通知、请示、批复、会议纪要等文种。
用户的下位类有学生、教师、行政人员、校外人员,属性有姓名、性别、单位、证件等。
载体类别的属性设为纸质、电子(网络、光盘)、磁盘、磁带、胶片;其中电子文件包括文本文件,图形文件、音频文件、视频文件;多媒体文件、超媒体链接文件、数据库文件、计算机程序文件。
资源管理规范分为国家法律法规、标准、本单位规章制度。
根据以上概念关系的初步分析,可给出档案信息资源组织与实用分类体系的概念关系基本模型图。
根据档案信息资源知识组织系统概念关系,利用protégé工具系统进行档案实体分类系统加工。
软件平台应包括操作系统平台、数据库系统平台、数据处理平台、档案管理平台、数据保护管理平台。
操作系统软件应选用当前比较主流稳定的操作系统,如Windows或者Unix操作系统,选用时应考虑操作系统的性能需求、配套的数据库系统、数据处理软件支持程度等。
数据库系统软件是整个数字化项目的存储核心,应具有高性能、高可靠性和高可伸缩性,支持并行查询、动态存储、动态行级锁、动态空间管理和索引操作,支持行级和列级规则、触发器、存储过程、管理向导、日志管理、备份/恢复、事件/报警管理、安全管理等,要求易于管理和维护,提供对Internet、Intranet的强大支持。
数据处理软件应选择能够支持业界先进的扫描解决方案。应包括扫描功能、图像处理功能、索引编制功能、OCR识别技术等。扫描功能要求能够实现对文档进行扫描后的合并及分离,实现多种方式的扫描,实现追加、替换、插入等多种扫描处理。图像处理功能要求能够对扫描图像进行基本处理,如纠偏、去污、背景去噪、画质调整等。索引编制功能要求能够满足各类文件类型的索引著录需要,提供格式模板和格式定制功能尤佳。同时,要求软件拥有良好的数据接口功能,能将索引数据以文件形式或转换的方式输出。
档案管理软件应对各部门形成的纸质及电子文件都能进行管理、控制和整合,应有规范的、功能强大的电子文件归档流程,应使用国际标准的元数据加工方式(如EAD),便于不同系统之间数据的交换和共享和信息检索。同时,档案管理软件系统应能够支持与学校各部门OA系统进行良好沟通与数据交换获取的机制,方便与相关系统的交互。
数据保护方案主要考虑对所有数据制定统一的保护策略,包括系统安全、用户权限管理、数据存储方案(如NAS或SAN存储)、数据高可靠性保障、备份、迁移、容灾方案等。
硬件平台包括服务器、存储/备份设备、数据处理加工设备等。
服务器应选用功能强大、性能可靠的设备,还要考虑总体成本、占用空间(机架式/塔式)等因素。存储/备份设备应具备高可用性、高可靠性、读写速度快的优点,考虑到对数据保存的长期要求,需要同时有在线和离线备份设备,如条件允许应考虑使用异地备份设备。
在依托校园网进行相关网络环境的建设过程中,将从符合档案管理系统安全要求的角度考虑建设数字档案馆的局域网。
数据加工应选择能够提供适合的扫描设备,要求技术先进、各项指标一流,性价比高。对一般质量要求的纸张能够利用高速扫描仪转化成电子格式文件,并拥有条形码、表格识别技术对文档进行识别,内嵌Kofax VRS等影像增强技术元件。要求拥有能够处理各种档案载体类型、不同幅面纸张、图纸的扫描设备,包括文件扫描仪、工程图纸扫描仪、用于数字化的数码相机、用于底片的胶片扫描仪等。
数据的加工组织是数字档案馆建设过程中基础性工作,也是工作量最大的一项任务。在档案资料的整理及扫描加工过程中,可依托学校的有利条件,通过选拔和组织一些相关专业(如计算机专业、信息管理专业)的在校大学生进行培训后,在专业人员的组织和指导下,以快速高效和成本节约的方式进行,也可实施项目外包,委托专业公司完成。在档案对象元数据的描述和加工过程中,将主要通过专职人员和聘用相关专业的兼职专家来完成。扫描文件采用SQL SERVER或ORACLE数据库管理平台管理索引数据和扫描图像数据,或者数据库只管理结构化的索引数据,扫描图像以文件系统形式保存在服务器上。
由于档案的原始性、唯一性和机密性等特点,对于档案部门而言,档案数据的保存是一项长期性、重要性且复杂性的工作。数字档案馆建设的实施过程中,宜采取在线网络存储和离线存储相结合的方式,并需要采用异地备份策略,确保其安全可靠的保存和利用。通过制定更加细化的备份策略,以保证在数据的迁移、更新、仿真过程中数据的真实性、完整性、安全性。电子文件的离线存储主要是将电子文件存储在光盘、磁盘上加以保存,但由于光盘、磁盘的使用寿命比较短,保存风险比较大,可视作备份存储的一种方式。网络存储的方式有存储在独立的档案信息专用服务器中,也可采用在学校网络管理中心机房的服务器中划分专门的档案信息管理区域进行存储的方式。具体到服务器存储,针对电子文件存储容量日益增多的情况,可以采用磁盘阵列的方式来进行存储。磁盘阵列与其他的存储方式相比有许多优点:首先是提高了存储容量,提高了网络数据的可用性及存储容量,并将数据有选择性地分布在多个磁盘上,从而提高系统的数据吞吐量。其次,由于有校验技术,提高了可靠性。此外,能够免除单块硬盘故障所带来的灾难形后果。通过把多个较小容量的硬盘连在智能控制器上,可增加存储容量,磁盘阵列不会使还没有来得及写备份的数据因磁盘损坏而丢失。采用磁盘阵列存储不仅可以降低成本,还可以提高检索利用率。磁盘阵列技术成为目前最行之有效的数据存储方式。
网络存储必须要建立一个完整的、可靠的、易扩展的存储系统,在系统故障或其它因素导致数据丢失后,可实现运行过程中断点恢复数据,要有内部数据日志备份、实时出错跟踪、多级用户管理、多种系统备份机制及系统发生故障后的恢复功能等;同时存储系统必须支持数据的不断增长,优化存储成本,预留和分配更大的磁盘空间,遵循一定的法规要求以防止电子文件/档案被删除或篡改,允许授权用户、管理员访问。
网站是数字档案馆信息服务的发布平台、检索利用平台和对外宣传和交流的窗口。网站从内容设置上,突出网站的档案服务性功能,内容丰富集中,具有一定的知识性、参考性;从布局上,模块结构布局合理,分类科学,指引清晰,满足三次点击原则;从检索利用上,易于操作,便于检索,利用效率高,界面友好。
数字档案馆的建设是一项长期而艰巨的任务,是一项需要长期投入和不断建设的系统工程,需要深谋远虑,分阶段地逐步推进建设,因此全面的规划设计至关重要。数字档案馆的建设涉及从档案信息资源的整理与分析、多类型档案对象的数字化保存策略与机制、标准规范体系的研究制定、数字档案管理技术平台开发建设、档案对象的数字化与加工描述、数字档案的发布利用、安全风险分析及防御策略机制研究建设等多环节多方面的复杂内容和过程。项目的建设应本着从支持大学档案的数字化长期保存与利用的长远考虑出发,这是保证大学数字档案馆建设科学持续发展的前提。
The authors have declared that no competing interests exist.