对档案相关学科数字信息群的知识集成进行研究,档案信息集成发展到档案知识集成,不仅是解决档案信息系统集成中的异构性问题,更重要的是出于档案理论与实践创新和发展的需要;然后将档案的信息组织与检索置于信息学科整体的知识集成环境中,对档案信息组织和档案信息检索的发展进行深入的研究,从总体、功能、数据和环境等多个方面对档案知识组织需求进行分析,以为知识组织框架的设计建立理论体系,知识集成环境下的档案知识检索,应该以多本体为基础来组织领域知识及语义模型,以本体的概念集对资源进行语义标引,以基于本体的知识语言检索领域知识,以自然语言实现概念查询。该成果能够促进和推动档案领域数字信息资源发展,提高档案学科信息利用的质量。
The development of archive information organization and retrieval based on knowledge integrate from archive information integration to knowledge integrate has been researched. The archive information organization method adopted by traditional information institutions is digital-object-oriented which oriented towards digital object rather than knowledge itself, and the metadata used in this digital-object-oriented information group is evidently, can not meet the demand of archive knowledge organization. This paper also pursues a deepening exploration into the theory-basis, function-structure, data, and environment of this framework. This paper studies knowledge retrieval based on Knowledge Integrate based on ontology in this framework. The quality of archive information retrieval and the development of archive information resource have been raised and strengthened consequently.
档案学和图书馆学、情报学等信息学科始终将知识组织作为本学科理论研究的重点之一,从理论到实践有着悠久的历史。人们面对海洋般的数字信息,已经不可能只靠自己去阅读理解来获取知识,更需要的是能够得到帮助快捷地从浩如烟海的数字信息中定位到其所需知识。信息学科通过长期的发展,已经形成了比较完整的关于文献组织和信息组织的理论体系,具备了比较先进的关于信息检索的技术方法,并在实践中得到了很好的检验。从计算机诞生开始,档案学紧紧与信息技术联系在一起,在信息组织和信息检索方面取得了很大的成就,但面对日益增长的数字信息,用传统的管理方式显然不能够满足用户的知识需求,而且目前对于数字信息对象组织的实践大多还是沿用对纸质文献进行组织的理论和方法,注重于数字对象的组织,而不是数字对象表示的信息的组织。
知识创新已经成为社会进步的主要推动力,信息技术发展和计算机网络普及为知识集成提供实现的可能。在新的时代和新的机遇面前,信息学科各研究领域都面临着变革和转型,它们的数字信息资源有着许多相近或相似之处,如应用需求的相近相似,数字信息表现形式的相近相似,信息加工和信息利用方式的相近相似。同时,这些数字信息资源相互之间存有联系,因此可以联系起来进行整体研究。国际上加拿大已经实现了档案馆与图书馆、博物馆、肖像馆的整合①,国内天津市图书馆也在档案、图书情报整合方面作了有益的尝试②,上海市兴建的图情新馆所已经实现了两者机构的完全统一。这些信息学科数字信息群的知识共享是各学科领域协调发展和跨领域知识集成的重要途径。
本文研究的背景是档案学等信息学科数字信息群的知识集成,但不一定局限在机构实体的“物化”层面上的集成,更重要的意义是在虚拟资源的“视图”层面上的集成。本文首先对档案相关学科数字信息群的知识集成进行研究,然后将档案的信息组织与检索置于这样一种整体的知识集成环境中,对档案信息组织和档案信息检索的发展进行深入的研究。这项工作无论是对于促进和推动档案领域数字信息资源发展还是提高档案学科信息利用的质量,都具有十分迫切、重要的理论意义和应用价值。
以档案学、图书馆学、情报学等为代表的学科数字信息群,与一般网络信息资源相比较既有相同或相似的一些特点,又有明显的差异。它们具有的共同特点是数量巨大、内容丰富、形式多样和更新频繁,但学科数字信息群又是特定的网络信息资源,与通常的网络信息资源相比有以下优势:第一,虽然数量巨大、更新频繁,信息质量仍可控制,面向学科的数字信息群具有一定的标准和规范,许多信息经过必要的信息过滤、整理加工、质量控制和管理机制,已经处于有序状态;第二,虽然形式多样、内容丰富,信息仍可有效组织,特别是学科数字信息群按学科的文献类型将网络信息资源进行划分,通过文献信息资源与网络信息资源的有机结合丰富了信息资源的体系;第三,在“信息爆炸,知识缺乏”的时代,计算机界诞生和发展的众多先进的信息技术,能够在学科数字信息群的知识集成中发挥作用,并得到具体应用,而一些有待深入研究和实践的知识技术也能够在知识集成中取得应用和创新,从而为数字信息群的知识集成中运用学科的理论、方法和技术作了必要的准备。
基于知识集成方法与技术研究的理论与实践有其现实背景。学科数字信息群从信息集成发展到知识集成,不仅是研究异构数据的集成问题,也不仅是研究各类文献的信息集成问题,更重要的是要研究知识集成的技术与方法。数字信息群的知识共享是学科各领域协调发展和跨领域知识集成的重要基础,实现学科数字信息群的知识共享、集成和挖掘需要创新研究和应用相关的方法与技术,国际上已具备较成熟的学科知识集成条件,目前处于研究发展阶段,但在我国缺少统一的学科理论和技术体系支持,该研究属于起步阶段。
档案学科与其他先进学科一样,管理方式开始从信息管理走向知识管理,从信息资源开发走向知识资源开发。数据和信息的管理固然非常重要,但真正的竞争优势取决于组织中的知识力量。知识作为一种资源在信息机构中显得越来越重要。波普尔的“世界三”理论对图书馆学情报学档案学界关于“知识”概念认识影响最大。在波普尔的理论之上,布鲁克斯将知识定义为“由概念之间的关系联结起来的概念结构”,并提出了著名的知识方程,即知识的增长是通过情报(信息)的获取来完成的。1986年Debons提出了把[When/Where/Who/What]作为人类的认知元素中心,并以信息元(informs)为单位测度信息。国内的梁战平介绍了质疑理论③,该理论认为知识是回答问题空间中的“如何/为何”类问题的文本,信息是回答问题空间中“何时/何处/何人/何事”类问题的文本,数据是那些没有回答问题空间内部问题的文本。温有奎④指出知识是有结构的,知识是由知识元组成的。贾同兴⑤从人工智能的角度出发将知识定义为:知识=客观事实+主观信念+主观信念与客观事实之间的一致性关系。蒋永福⑥认为人们的认识成果就是知识,知识是人类特有的信息,是信息的一部分。史忠植归纳知识具有客观性、相对性、进化性、依附性、共享性和可重用性⑦等六种特性。
知识集成与信息集成具有密切的联系。利用信息技术开发的各种知识集成平台和工具,可以促进知识集成的发展⑧。Kenneth S Murray认为:知识集成是一种学习或者教育的机制,包括对新知识的识别、处理、评估和新知识与已有知识之间的交互以及改造。档案的知识集成和信息集成是不完全相同的概念,它们之间的区别主要在于以下几个方面:首先,集成的目标不同,档案信息集成的目标在于有效地利用信息,而档案知识集成的目标在于方法和技术的创新;其次,集成的对象不同,档案信息集成的对象是组织或者结构化的数据,而档案知识集成的对象是知识;另外,集成的内容不同,档案信息集成的内容是对数据库的检索、排序、统计,而档案知识集成的内容是对集体知识的挖掘、共享和集成以及知识的外化、内化、中介和认知过程;最后,集成的关键技术也不同,档案信息集成的关键技术主要是异构信息的集成技术,而档案知识集成的关键技术主要是不同信息处理系统间的集成技术。总之,信息集成是知识集成的基础,知识集成是信息集成的目标和发展。
20世纪70年代,国外档案学家提出档案、图书、情报信息资源共享,建立从机构到信息管理的一体化。1977年美国档案工作者协会(SAA)咨询委员会任命组成的“国家信息系统特别工作组”(NISTF),专门研究档案目录数据库的著录与档案信息的电子化共享,制定了适合美国档案目录数据库的机读目录交换格式。1982年10月,该格式正式批准为档案数据库著录的标准,即“档案机读目录格式标准”(MARC AMC),使得档案馆为MARC系统提供机读目录成为可能,从而为美国档案乃至整体信息资源的共享奠定了基础,而且能够被用作对其他非档案类资料的管理。美国档案学会权威迈勒最近指出:“多少年来,档案学家认为档案手稿不能达到标准化,也不能进行资源共享,因为所藏资源都是孤本的。在图书馆技术和自动化的影响下,这种情况要改变。” 美国俄亥俄州大学由该州投资2000万美元于1994年完成了一项庞大的图书馆、情报中心、档案库三者自动化联网计划,使全州18个最重要的图书、档案、情报部门连成一个信息网络,读者或用户可以在网内查到所有馆藏信息。
档案与图书、情报的同源性决定了这些信息机构服务对象的相似性,随着科学技术的发展和社会更广泛、更迫切的需要,对图书、情报、档案的利用越来越要求公开化、社会化。以信息管理手段来看,档案管理因受其整理、分类的限制和封闭期的限制,目前不同的是档案机构公众服务性不如图书馆、情报部门强,它以特定对象确定自己的服务内容,主要是对部门、机构内服务。但是从美国档案学家谢伦伯格的“文件的双重价值论”出发,文件档案除了有对原机关的原始价值即第一价值外,还存在其从属价值即第二价值。前者主要体现其行政价值,后者体现其情报价值。因此,档案馆网络化管理在经历了第一、二阶段后,必然要走第三阶段,即档案向公开化、社会化方向发展。从而走向三者一体化管理。
图书与档案在根本属性、形成目的等方面有所不同,图书馆、档案馆或是其它文献机构在机构服务环节上也有所区别,但是,在构建供用户检索图书、档案的知识服务平台时,其理念、技术与具体著录、标引工作都要充分利用计算机与网络共享技术,对图书、档案一般特征信息以元数据格式著录、标引,形成元数据集合,再按照用户的实际利用需求设立多种检索入口,建立检索数据库⑨。网络环境下,充分利用信息技术对学科数字信息群进行知识集成,对学科知识信息进行有针对性和独具特色的深入加工,以创造知识信息用户的更大价值。采取开发主体上跨机构、开发对象上跨库、跨地区和跨资源的合作开发,能够最大限度地满足各方面利用者的多元化需求,图书馆、情报机构和档案馆等不同文献保管机构的馆藏类型互有交叉,突破机构界限可以更大程度地集中相同主题文献⑩。
信息集成是知识集成的基础,知识集成是信息集成的发展和目标,两者相互促进、相辅相成。知识集成能削弱信息的相互冲突,保证信息集成的语义一致性;利用信息技术开发的各种知识集成平台和工具,可以促进知识集成的发展。因此,在解决档案组织和档案检索复杂问题时,知识集成与信息集成都是不可缺少的。从档案信息集成到档案知识集成的发展,不仅是解决档案信息系统集成中的异构性问题,更重要的是出于档案理论与实践创新和发展的需要。
从信息组织的实践来看,以往我们比较注重对数字对象本身的组织,而忽视对数字对象揭示的知识的组织,这种现象部分来源于传统信息机构对文献对象的保护保存职能。在信息技术高度发达的今天,对于单个数字对象的保存是否如对传统印刷型文献的保存那么有意义是一个值得探讨的问题。但不容置疑的是,对数字对象内容中所蕴含的知识的揭示和组织才是用户更关心的。用户实际需要的是能够通过知识组织技术帮助他们获取知识,而不仅仅是包含知识的数字对象。
档案信息目前采用的组织技术至少在以下几个方面已经显露出不能满足知识组织的需求:
(1)档案信息机构采用的信息组织方式大多是针对数字对象本身的,而且主要从利于数字对象保存的角度进行的,不能满足知识组织的要求。这应该是从档案馆的保存保护职能演化而来,由此导致的结果就是注重数字对象的外在属性的描述,而在内容的揭示上存在不足。用户在求助于信息机构时,获得的只是从传统的印刷型文献转变成了数字化的文献,是否符合用户的知识需求,还需要用户亲自去查阅这些数字对象才能够得出结论。
(2)档案界目前使用的元数据还不能满足知识组织的要求。元数据本身由于是围绕数字对象进行设计,更多的是在揭示数据对象本身的属性;元数据的元素设置由于是从保存数字对象的角度而不是揭示数字对象内容的角度进行设计,因此在元素的设置上就呈现揭示内容的少,描述外在属性的多;从学科数字信息群而言,由于不可能有统一的标准和视图,不同元数据之间的互操作困难;从单一学科元数据的可扩展性看,由于大多是针对特定领域,因而可扩展性差。
(3)档案元数据标准中揭示内容信息的元素的组织不够合理,不能揭示其蕴含的知识和相互之间的关系。各类元数据实际都或多或少含有揭示其描述的数字对象的内容的信息,但现在的组织方式并不是针对其蕴含的知识,而是针对知识的载体,因此这些元素并没有得到充分的应用。可以使用Ontology、推理机、概念图(Concept Map)等技术,用知识的方法对这些信息进行组织。也就是要将内容对数字对象的依赖,转变为数字对象对内容的依赖。
(4)档案信息系统中元数据记录大多以关系数据库存储,但是关系数据库并不能完全满足知识组织的要求。一是数据模型不匹配,关系模型和有向图模型两者之间存在差异;二是关系数据库的存储方式不利于知识的推理和表示。
目前,国内外的专家学者们都已经深刻地认识到了人类对知识组织的迫切需要,在不同的领域进行着探索和实践。
(1)档案知识组织要从数字资源中发现知识,提供知识的表示模式和知识库,为提供知识服务奠定基础。知识分为客观知识和主观知识,信息机构馆藏更多的是属于客观知识。对客观知识的组织,从资源上应立足于从现有的元数据中挖掘知识,因为现有的各类元数据已经对数字对象的各个方面进行了比较充分的描述,凝结着档案工作者的心血和成果,其中也蕴涵了大量的知识,只是现在还没有从知识组织的角度得到充分的利用;从方法上应继承和利用信息机构在知识组织方面长期积累的理论和经验,吸收引进新的知识组织方法,在信息资源和知识组织上搭建沟通的桥梁。在信息机构的知识工程中,元数据的地位非常重要。根据元数据的功能的不同,可以在知识工程的不同层次使用不同的元数据。各类档案描述性元数据的功能的发掘不应该只停留在数字馆藏的保存上,还应该重视其揭示内容方面的功能的发掘。在档案知识组织的层面上,还需要定义知识表示相关的元数据,这类元数据对知识的表述应该提供一定的灵活性,在大的框架下允许适当进行扩充或者变换,以满足不同领域的需要。
(2)要实现档案知识组织,其功能上至少应包括知识定义、元数据管理、知识挖掘和知识存储。知识定义是进行知识组织的核心,包括对知识表示框架定义、规则库管理等功能,知识表示框架定义是使用XML、RDF等技术,根据特定学科领域对知识的定义将其形式化的过程,主要是对知识包括的属性、方面以及如何呈现进行定义,对知识定义有多种方法,但都离不开一定的规则,通过规则库管理可以对知识的表示、组织、利用等功能产生直接影响,并反映到整个系统上。由于元数据信息是知识组织的资源的直接来源,对这些元数据方案的管理就特别重要,元数据管理包括为元数据标准的制定提供一个管理的接口,通过注册告知系统元数据方案的结构定义、资源的位置等信息以为元数据抽取提供信息,元数据抽取根据元数据注册信息自动地从信息源中抽取符合知识组织需要的元数据元素的相关信息,元数据映射将抽取回来的元数据元素信息进行语义分析并与知识表示框架中的具体属性建立关系。知识挖掘是知识组织的关键步骤,系统定时地从信息机构的馆藏信息资源中挖掘知识,不但能够满足用户不断变化的知识需求,还应该能够及时反映信息资源变化导致的影响,知识集成环境下的档案知识组织应着力考虑知识挖掘过程中的效率要求。知识存储包括对抽取回来的元数据信息的存储和对知识挖掘结果的存储,不但要能够存储元数据的当前信息,也应该能够保留元数据方案演化产生的历史信息,以保证知识挖掘的一致性,采用恰当的存储方式既可以方便发现知识之间存在的关系,为产生新的知识提供条件,也便于提高整个知识组织的运行效率。
(3)对学科数字信息群的知识组织,应该包括对档案等信息机构馆藏资源中的文本、图像、音频、视频、动画以及其它数字信息对象内的知识进行组织的能力。目前,通过各种描述元数据对多媒体数字对象内容的揭示,可以实现基础的、当前较为成熟的档案知识组织。因此,这种数据需求要使用数据仓库对知识进行存储。数据仓库具有面向主题、集成性、稳定性和时变性的特征,对从数据库中获取知识提供了途径。除了存储知识挖据而来的符合知识定义的知识外,还特别应该注意保存知识的最初来源信息,通过统一资源标识符等标识出知识来源的数字对象。这样,当用户需要进一步了解知识时,才可能为其提供指引。对于挖掘而来的知识,还应该对其进行清洗,从文本内容、数据类型、数据长度、格式、空值、降噪等多个方面,对组成知识的信息进行规范,以满足档案信息系统和用户对知识的要求。
(4)目前的知识集成环境对学科数字信息群进行知识组织,呈现“统一”和“差异”两个截然不同的环境特征。所谓“统一”,就是现在的知识组织都是基于网络的,不管是局域网还是广域网,网络作为信息机构的基础设施,将同一机构掌握的所有信息资源联系到了一起,网络化、数字化是现在知识组织软件系统设计和实现中所面临的真实环境。所谓“差异”,是指由于知识载体和数字对象格式的不同,知识组织面对的信息资源不会只是单一的文本文件,由于操作系统、数据库、文件格式、编码规则等等多方面带来的信息资源异构性,为知识组织增加了巨大的难度。档案知识组织不仅仅是只考虑对档案知识的发现和揭示,还必须考虑从异构档案信息资源中挖掘知识,这对档案知识组织软件系统的设计和实现是很大的挑战。
目前的档案信息检索已经形成了一些成熟的检索模型,包括布尔检索模型、向量空间模型和概率检索模型。传统信息检索模型的不足是显而易见的。在文献的组织与描述上,都采用词切分和单汉字或两者结合对文献进行索引,都将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,都是基于关键词的无结构查询,难以反映词语间各种语义联系,查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。在模型约束方面, 那种要求索引项之间独立性的要求并不符合实际情况。此外,面临网络巨量信息,传统信息检索模型虽经不断完善,也难以从根本上适应。由此,知识检索应运而生。一些学者从不同角度提出了基于知识的检索模型,如分类检索模型、多维认知检索模型、分布式检索模型、概念检索模型等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点,以概念词典为辅助,采用人工智能技术,增强搜索引擎概念分析理解能力,从概念层面上来处理用户的查询请求,从而实现特定领域的概念检索。我们认为,上述检索模型由于没有知识组织体系的支撑,没有实现对检索对象的语义标注,也没有对其语义进行解析,依然是一种信息检索模型,是一种能够基于知识的信息检索模型。
知识检索是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取文本、图像、视频、声音等媒体类型的知识源,并能准确精选用户需要的结果。知识检索是将信息或知识按照一定的方式组织、存储,并根据用户的需求找出相关信息和知识的过程。在这个过程中,被检索的对象是知识资源、知识库。知识检索就是采用一种从语义上标引文章的技术,形成知识库,再从知识库中查询用户所需的信息。检索语言是描述信息的内容与形式的工具,也是用户表达检索提问的语言。网上信息检索模型多采用布尔检索模型和向量空间模型,布尔检索模型利用关键词描述信息,检索系统采用精确的关键词匹配;向量空间模型用空间中的向量表示信息,用相似统计方法计算信息与提问向量之间的相关性。网络知识检索是基于“知识”的搜索,用户可以灵活地选择理想的检索策略与技术,知识检索能主动提供个性化的服务,向用户提供潜在内容知识,全面提高检索效率。传统的搜索引擎是对信息相关性的搜索,搜索引擎通常要检查文档的每一页,而知识检索更强调内容的相关性,这样检索相关知识的能力作为衡量其检索效率的指标更具有实际意义。
当前,档案知识检索系统应该更加注重文本挖掘的功能,如具有大规模实例描述的汉语分词排歧知识库,具有主题词典和内容相似性检索功能,具有自动分类、聚类和自动摘要功能,具有文本数字理解和新词学习功能等。实现个性化、智能化的知识检索需要解决的一些技术问题包括:
(1)自然语言的优化。知识检索有赖于语言学工程的突破,以及自然语言处理的技术应用。自然语言指所使用的书面语言,包括自由词、关键词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。自然语言在网络检索中得到了广泛的应用,但是自然语言中存在着大量的同义词、近义词以及一词多义、同形异义等现象,知识检索需要对自然语言进行优化处理,包括歧义信息的处理,通过歧义知识描述库、全文索引、用户检索上下文分析,结合用户相关性反馈等技术,准确地反馈给用户最需要的信息;利用分词词典、同义词典,同音词典改善检索效果,相关的信息也能检索出来;在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
(2)知识挖掘。知识检索需要更加注重内容挖掘的功能。目前知识挖掘主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度;在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
(3)自动化的学习与反馈机制。自动化的学习与反馈机制是实现知识检索的关键技术之一。相关反馈技术是研究用户知识和用户模型的一项重要技术,其基本思想是通过用户与检索系统之间的反复交互,逐步了解用户的需求,不断反馈学习形成新的检索式和检索结果,更新和完善用户模型,逐步提高检索结果的相关性。将相关反馈技术应用于知识检索领域,可以提高系统的智能化程度,有助于进行有针对性的个性化服务,对检索效率有较大的影响。
当前,基于本体的知识检索模型在资源对象的组织、描述、表示、检索和模型约束等方面都具有自己的显著特征,包括:
(1)检索请求的分析主要内容是:第一对检索请求进行预处理,提取需要检索关键字(词);第二借助本体并在必要时通过和用户再次交互,判断检索请求中关键字(词)的领域、相关概念等等,确定用户的真实意图;最后再将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分。同时,在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识,对检索匹配部分返回的检索结果进行处理、合并后返回给用户。
(2)知识源部分负责对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析,对从知识源中抽取的知识进行转换,对本体库中的相关部分进行补充和完善,对建立对应的索引信息,放入索引库。
(3)检索匹配机制的主要作用是从人机交互部分收集统一的检索请求,并依据本体库中的相关知识对检索请求和索引库进行语义和语法层面的匹配,并将检索结果返回给人机交互部分。
(4)本体库从对检索请求和检索结果的处理,到对检索请求和索引的匹配,到对知识源的标注、索引的建立都基于本体库中的相关知识。同时,上述各个过程又可以对本体库中的知识进行补充和完善。当然,对本体库中知识的任何修改都要经过领域专家和系统的双重认定。
知识检索是为适应知识组织的发展趋势,以解决信息检索机制检索效率低下而提出的一种新的检索理念。在知识组织的基础上,知识检索是从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现概念语义检索的智能化检索方式。基于知识的信息检索是指在信息检索的框架下,通过一些智能化手段改善检索效率和效果的一种方式,目前的“概念检索”、“语义检索”、“智能检索”等都属于这种表述形式;而知识检索不等于基于知识的信息检索,它是基于某种具有语义模型的知识组织体系,知识组织体系是实现检索的前提和基础,知识检索则是基于知识组织体系的结果;它又是对资源对象进行基于元数据的语义标注,元数据是知识组织体系的语义基础,只有经过元数据描述与标注的资源才具有长期利用的价值。基于本体的知识检索模型和知识检索呈现方法,以及知识检索的评估机制是当前档案知识检索发展的重要研究方面。
The authors have declared that no competing interests exist.