新一代可扩展置标语言XML具有面向文档、面向数据和面向语义的功能,能够很好地保证文档一体化过程所产生的电子文件的凭证价值,因此,XML已经成为文档一体化过程中不可或缺的工具。本文从多层次、多角度对文档一体化领域中XML的研究现状进行了统计,并对统计的结果进行了阐述。
New generation eXtensible Markup Language(XML) has document-oriented, data-oriented, semantic-oriented function, and it can ensure vouchers value of digital records generated by integration of documents and archives procedure, and XML already become a tool integration of documents and archives procedure that can’t be lacked. This essay stated XML research state in field of integration of documents and archives at multi-level and multi-angle, and analyzed the statistics deeply.
为对文档一体化领域中XML的研究进行统计调查,主要对中国学术期刊全文期刊数据库(CNKI)、全国优秀硕博学位论文数据库和全国重要报纸全文数据库进行检索。根据对这三个数据库的检索结果,从1979年至2007年,在电子文件领域中关于XML的研究学术文章有1000多篇,而与文档一体化领域相关的学术文章总计有80篇。
该调查结果可以从多个层次、多个角度进行统计,其层次统计模型,如图1所示:
从人们对事物的认识层次来讲,统计是从外入内,首先对从外在层次上对这80篇文章进行统计研究,而后对其涉及的内容进行内容层次的剖析。即:
(1)从外在层次分:时间轴——根据调查结果的年代分析;空间轴——根据调查结果涉及的研究人员领域分析。
(2)从内容层次分:时间轴——从文件生命周期角度分析;空间轴——从文件业务角度分析。
从时间轴上来对调查结果的年代分析,1998年至2007年,各年的学术文章分布如图2所示:
如图2所示,文档一体化领域中对XML的应用研究起步于1999年,文章数为1篇,后各年文章数分别为2000年2篇、2001年5篇、2002年6篇、2003年11篇、2004年14篇、2005年15篇、2006年11篇、2007年15篇。
从空间轴上对调查结果涉及的研究人员领域分析,这80篇文章涉及的研究人员其所属专业领域主要是教育领域、档案领域以及计算机领域,统计结果如图3所示:
从图3可以看出,教育领域(包括大学院校、研究所等部门)的人员对XML在文档一体化中应用研究的学术文章有61篇,占比例的76%;档案领域(主要指档案行政机关、各档案馆、档案室以及与文书、档案工作相关的部门)的人员对XML在文档一体化中应用研究的学术文章有15篇,占19%,计算机领域(一般包括与档案活动相关的一些公司、企业等)的人员对XML在文档一体化中应用研究的学术文章有4篇,占5%。
从时间轴上对涉及的文件生命周期内容的调查结果分析,调查的80篇文章内容分别涉及到文件创建、文件管理、文件交换、文件移交、文件保存和文件检索利用等文件生命周期的六大阶段,如图4所示:
从图4可以看出,XML在文件创建阶段(主要是关于文件创建的格式标准以及纸张研究)的学术文章有7篇,占比例的9%;文件管理阶段(包括对电子文件的宏观管理的理论和策略,以及能够保证文件凭证价值的元数据管理)的学术文章有28篇,占34%;文件交换阶段(关于文件交换相关标准以及实现不同部门之间文件的共享和互操作技术)的学术文章有18篇,占23%;文件移交阶段(文件归档时的数据的转移)的学术文章有4篇,占5%;文件保存阶段(主要指文件归档后的保存策略以及保存技术)的学术文章有17篇,占21%。
从空间轴上对涉及的文件业务领域进行分析,这些学术文章涉及到的文件业务领域包括政务类电子文件、商务类电子文件、科技类电子文件、法规类电子文件和通用类电子文件,其比例模型如图5所示:
从图5可以看出,研究XML和政务类电子文件相关的文章有16篇,占比例的20%;XML和商务类电子文件相关文章有11篇,占比例的14%;XML和法规类电子文件相关的文章有0篇;研究XML和通用类电子文件相关的文章有42篇,占52%;XML和科技类电子文件相关的文章有11篇,占14%。
通过对外在层次和内容层次的调查统计结果分析可以看出,目前我国文档一体化领域研究XML的现状是:
2.1.1研究成果逐年递增,研究角度也不断扩展。
从1999年的1篇文章到2007年的15篇文章,反映了我国文档一体化领域对于XML的重视程度在不断提高,研究层次在不断深化。研究的角度也从单一研究XML在电子文件著录过程中的应用向电子文件的各个生命周期扩展,研究开始涉及到XML在电子文件生命周期各个阶段的应用,包括文件的创建阶段,文件的移交阶段和文件的利用阶段。
2.1.2研究的跨领域合作。
从调查结果可以看出,针对XML如何应用于文档一体化领域,各领域都开始展开了合作研究,这些领域涉及到电子文件管理直接相关的一线工作者——档案管理人员,也包括从事教学理论实践研究的教育领域人员,还包括和文档一体化具体实现相关的技术工作者——计算机领域专家,各领域人员都从不同角度对XML和文档一体化结合应用进行了研究,研究的成果从XML应用的理论研究到实践开发,百花齐放。
2.1.3研究的专业化趋势。
从最初研究XML在通用电子文件中的应用,到研究XML在各专业领域电子文件中的应用,显示出XML在文档一体化领域正逐步走向研究和专业电子文件结合的趋势。研究的角度在不断扩展的同时也在走向不断的细化和深入,例如开始出现研究XML和医疗电子文件、科技文件结合应用的文章。
当然,我国文档一体化领域研究XML的应用也存在一些不足,主要表现在:
2.2.1我国文档一体化领域对XML应用研究起步晚。
国际上XML应用于电子文件领域的标志性的产物是1998年美国档案工作者协会(SAA)颁布的档案置标著录标准——EAD。EAD标准的出现第一次将XML作为标准应用于电子文件领域,而我国电子文件领域对XML的研究开始从文献上看是以1999年1月份《档案管理》杂志上牛金芳的《EAD——一种新兴的电子档案著录标准》②为标志的,因此,我国电子文件领域才逐渐开始对XML的应用进行研究远远落后与国际电子文件领域。
2.2.2研究成果绝对数量少。
从1999至2007年,文档一体化领域对XML研究只有80篇文章,研究成果的数量太少,和电子文件的其他研究领域来说,相差甚远。笔者对中国学术期刊全文数据库(CNKI)从1994年到2007年电子文件领域的文章进行统计,发现共有电子文件方面的文献有3000多篇,而在3000多篇文献中,研究XML应用于文档一体化领域的文章只占不到3%。文章绝对数量少,意味着在文档一体化领域对XML的重视程度偏低,还没有真正意识到XML在文档一体化中所具有的重要作用。
2.2.3理论探讨远远大于应用实践研究。
从图3 可以看出,虽然不同领域研究人员分布不均匀,主要是集中于教育部门研究人员,发表的文章大都集中于理论探讨,而来自电子文件管理第一线的档案管理人员发表的文章不到20%。这表明在我国文档一体化领域对XML应用的研究,目前存在着理论研究远远先行于应用实践的问题。这主要是由于教育部门的研究人员重理论,轻实践,而档案管理人员理论研究不足,重实践,形成两极分化,这就在一定程度上影响了XML在文档一体化中应有研究的发展。
2.2.4研究深度还有待加深。
从80篇相关文章中看,对XML研究介绍性的文章居多,例如,部分文章主要是对XML的名称、功能等进行的介绍;还有部分文章对XML在文档一体化的应用成果介绍,比如有关档案置标著录标准的介绍性文章有13篇,占总文章数的16%;还有些文章是从宏观上讲XML在文档一体化中的作用,等等。这样的文章,虽然增加了对XML在文档一体化中应用的了解,但也都表明我国文档一体化领域对XML应用研究在深度上,还有待于进一步深化。
2.2.5研究的广度还需进一步扩展。
从图5可以看出,研究的领域主要集中在传统的档案领域,占到总数的一半以上;这几年来兴起的电子政务开始逐步成为研究热点,占总数的20%。而范围较广的、影响较大的电子商务和科技领域只各占总数的14%;民众所关心的法规领域却为0%。相比之下,美国联邦政府以及美国各州政府,如美国明尼苏达州等都已经在网络上公布了以XML格式作为制定政府法律文件的标准格式,可见,我国在XML应用于文档一体化研究,在广度上,还需要进一步扩展。
2.2.6XML在文档一体化中的功能作用需继续挖掘。
从统计中要可以看出,从1999年到2001年,其中有6篇文章是与档案置标著录标准--EAD相关,而与文件的管理相关和利用阶段相关文章的数量,分别为28篇和17篇,占总数的35%和21%;而电子文件的创建、移交等数量为7篇和4篇,仅占9%和5%。上述数据说明,我国文档一体化中XML的应用研究起步于文件的利用,并且研究也主要局限在文件管理和利用等与传统档案相关的阶段,而一些与传统档案区别较大的创建和移交等阶段,研究文章的数量较少,深度尚浅;此外,XML功能作用还与领域的特点也有一定的联系,比如,与文件交换相关的18篇文章绝大多数为电子商务中数据的交换,而关于真正意义上的电子文件交换的文章几近空白。
2.2.7标准化程度不高,与国际研究成果还有一定差距。
从统计的文章中可以看出,我国文档一体化中XML应用的标准化程度不高,主要表现在我国在这个领域制定的标准不多。在我国文档一体化领域,与XML相关的标准仅有国家标准——《GB/T 19667.1-2005基于XML的电子公文格式规范第1部分:总则》③和国家标准《GB/T 19667.2-2005基于XML的电子公文格式规范第2部分:公文体》④,标准数量之少,也可以反映我国文档一体化水平与国际电子文件领域之间的差距。
积极推进XML在文档一体化领域的应用,这信息时代赋予我们的不可推卸的时代重任,虽然还存在很多问题,与国际电子文件领域之间还有很大差距,但是这既是挑战也是机遇,我们可以针对所存在的问题,找出解决的办法,最终实现文档一体化的目标。
The authors have declared that no competing interests exist.