本文讨论了数字档案管理中的知识服务问题,提出了知识发现和知识服务的相关概念和一般原理,进而对数字档案管理中的知识发现与知识服务的一般模式进行了讨论和描述。
2000年12月召开的全国档案工作会议提出大力加强档案信息化建设任务以来,我国档案信息化建设取得了巨大成就。档案信息化建设的突出特点是数字档案信息资源的大量产生,档案管理和档案信息服务利用的手段在时间和空间上得以大大地加强和拓展。档案信息资源的社会化共建共享目标,在档案信息化建设不断推进的过程中逐步得以实现。
然而,在档案信息化进程中,我们发现数字档案利用效率和档案信息服务质量尤其是档案知识服务和个性化决策支持服务的瓶颈问题仍然存在。笔者经相关文献调查和研究认为,运用知识发现和知识服务技术可以充分利用档案信息化建设成果,有效地解决数字档案管理中档案信息利用与服务的相关瓶颈问题。
档案信息化建设对档案信息的广泛利用提供了强有力的管理和服务手段,用户利用网络信息查询技术可以比较快速和准确的得到所需要的有价值的档案信息,数字档案信息资源的海量性和用户利用档案的专题性的矛盾得到一定程度的缓解。但是,用户若要根据自身的工作性质和信息需求,从浩如烟海的数字档案信息资源中获取所需要的基于内容和解决方案的知识服务则缺乏相应的技术支持。档案网络检索服务往往使人们难以辨别隐藏在其中的能对决策提供支持的信息,用户得到的信息还存在冗余性和离散性,数字档案信息利用结果并不能完全满足用户的最终需求。换句话说,面对不断增加如潮水般的数字信息,人们将不再满足于数据库的查询功能,而是需要的是从数字档案中得到有用的信息或者知识为决策服务。这样,传统的数据库技术暴露出了其先天的不足。
缺乏上述服务技术支撑的情况下,最终需求的满足需要用户自己从得到的档案信息中二次加工获得,这不但增加了档案用户对信息理解和分析的工作量,也拉大了数字档案管理主体与档案服务对象的距离,降低了数字档案信息资源利用和服务的亲和力。这说明,知识性服务仍然是数字档案信息服务的瓶颈。
知识发现这个词是1989年8月美国底特律的第一届KDD国际学术会议上正式形成的①。1995年,在加拿大召开了第一届KDD和DM国际学术会议并对KDD做了确切的定义。目前,普遍接受知识发现的定义是1996年由Fayyad等提出的:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的②。文献3则认为知识发现是指在积累了大量数据后,利用各种数据挖掘算法来分析数据库中存储的数据,从中识别出有效的、新颖的、潜在有用的及最终可以理解的知识③。简单地说,知识发现就是从数据库中发现有用知识的整个过程,即把数据转化为知识、把知识转化为决策的一个多次循环反复的高级处理过程。
目前,描述知识发现与数据挖掘的关系有三种观点。一种观点认为数据挖掘仅仅是知识发现过程中的一个特定步骤。持该观点的学者认为知识发现是从数据库中发现有用知识的整个过程,包括数据清理、数据集成、数据选择、数据转换、数据挖掘、模式评估、知识表示等七个基本步骤。这一观点把知识发现与数据挖掘明确的区分开来,指出了数据挖掘是知识发现过程中的重要组成部分,把数据挖掘作为知识发现的核心内容之一。另一种观点认为知识发现与数据挖掘是一个概念,可混同使用,如文献4认为数据挖掘有时也称作数据库中的知识发现④。第三种观点认为知识发现是数据挖掘的特例⑤,即把用于挖掘的数据集限制在数据库这种数据组织形式上,因此数据挖掘可以看作是知识发现在挖掘对象上的延伸和扩展。
笔者认为,知识发现是一个高级的处理过程,即应用数据挖掘算法和评价解释模式的一个循环反复过程,它们之间相互影响、反复调整,形成一种螺旋式的上升态势。而数据挖掘只是知识发现整个过程中的一个特定步骤,它用专门算法从数据中抽取模式,是知识发现过程中重要的环节。知识发现的内涵和外延意义更广,而数据挖掘更具体、更深入,更注重挖掘算法等。
知识服务最早由任俊为先生在1999年第1期的《图书情报知识》杂志发表题为《知识经济与图书馆的知识服务》的论文中提出的⑥。知识服务是面向知识内容的服务,它的前提条件是以丰富、大量的信息资源为基础,对其进行深入挖掘开发,从中识别出有效、新颖、潜在有用的知识信息,并利用先进的知识技术和智能技术实现信息服务,因此,可以把知识服务看作是以资源建设为基础的高级阶段的信息服务,是信息服务的延伸和发展方向。这也是数字档案管理中得以开展知识服务的重要依据。
目前对知识服务的定义众说不一,较常见的有两种定义方式。第一种是提供知识内容服务。如文献7认为知识服务是面向用户解决问题的全过程提供,经过析取、重组、创新和集成而形成符合用户需要的知识产品,按知识概念体系组织的内容信息而提供的服务⑦。文献8则认为知识服务是指从各种显性和隐性信息资源中,针对人们的需要将知识提炼出来、传输出去的过程⑧。第二种是提供一种知识应用服务。如文献9认为知识服务是以信息的搜索、组织、分析、重组的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程,提供能够有效支持知识应用和知识创新的服务⑨。文献10提出知识服务是向用户提供知识信息、知识挖掘手段及问题解决方案的服务⑩。
综上所述,可以认为知识服务是指以信息的搜集、组织、分析、重组为基础,通过对用户知识的需求和问题环境的分析,动态地、连续地向用户提供满足知识内容和知识应用要求的知识产品的一种深层次智力服务。
开展数字档案管理中的知识服务,首先要明确数字档案信息空间的概念。数字档案信息空间是宏观信息空间中的子空间,是由数字档案数据空间、软件空间、硬件空间、时间空间、技术空间、网络空间和服务空间等构成的空间集合。
信息空间(Cyberspace)概念的运用始于对计算机应用系统的描述。对计算机应用系统而言,信息是对客观事物运动过程的描述,数据则是对信息的编码。应用系统运行过程中,系统的功能和信息管理是通过对数据的加工和处理来完成的。这时,包括硬件、软件和数据在内的计算机系统构成一个完整的信息空间。这个信息空间包括运行中的软件空间、时间空间和动态处理中的数据空间。单机时代的信息空间属于单机信息系统,有人称其为“信息孤岛”。
在网络时代,信息空间的外延拓展到了域名地址空间、超文本链接空间、协议空间、技术空间、通讯空间、代码空间、编译空间、解释空间等,信息空间集合的子集进一步扩大。网络时代的信息空间属于网络信息系统,有人称其为“信息大陆”。
随着信息社会化和社会信息化的推进,信息空间的外延进一步拓展,新的信息子集被涵盖进来,产生了诸如智力空间、知识空间、整序空间、储备空间、索引空间等,其信息集合包括了以数字化为特征的科技、军事、教育、文化、宗教、卫生等领域的信息形态,构成了今天的全球共享的信息空间。人们在这个空间内的活动自由度不断增大,能够开展的业务迅速增长,从而构成了对人类社会的政治经济的巨大影响的“地球村”或“数字地球”。
数字档案信息空间就是这样诸多信息空间子集中的一部分,数字档案信息空间与外部的各种类型的信息空间也存在着以信息为媒介的相互作用与影响。所以,用信息空间的概念来描述数字档案与知识服务系统能够比较准确的定位和反映数字档案的信息组织过程、数据分析过程、信息发布过程和知识服务过程。
数字档案信息空间的组织模式是指系统的运行环境、内部结构以及相互间的关系模式。数字档案信息空间的构建应当结合数字档案与知识服务的特点,构建网络体系、数据管理体系、应用和服务体系、标准体系和安全体系等,从而构成一个高效运行的有机整体。一般说来,数字档案信息空间应当包括数据管理空间、网络应用空间、知识服务空间三个组成部分。
数字档案信息空间的组织模式包括四个层次,即基础平台层、应用平台层、信息表示层和信息环境层。
基础平台为数字档案网络管理与知识服务系统提供网络、主机/服务器、存储系统、数据输入∕输出等基础软件和硬件,包括硬件基础设施平台、系统软件及应用软件支持环境和协同工作环境。
应用平台是数字档案管理与知识服务系统的核心,包括数字档案管理平台和知识发现支持平台,是以用户为对象的知识服务系统的基础。数字档案管理平台包括信息采集系统、信息处理系统、信息存储系统、评价分析系统、信息发布利用系统,还有面向授权登录人员组织和管理系统。
服务平台通过服务器,通过HTTP协议、TCP/IP协议和万维网进行连接,提供知识服务功能。
信息环境包括各类媒体网络、Internet网络及其他媒体网络。信息采集系统利用智能Agent技术直接对信息环境中的信息资源进行操作。该系统主要用于通过网络采集有利用价值的数字档案信息,并进行编辑、著录、保存,形成数字档案信息数据库。如利用智能代理程序对网络中异地多个数据资源进行并行采集,系统对智能代理程序统一调度和控制,并负责对非标准化的信息进行格式转换。信息存取管理系统负责获取信息对象的集成存储并协助执行知识发现、内容管理和知识管理功能。
知识发现与知识服务系统是数字档案信息空间的核心部分,是基于数字档案信息空间的基础平台和信息环境,对应用平台和服务平台进行构建而成。
基于数字档案信息空间的知识发现与知识服务系统除常规的系统管理模块外,还包括数字化管理和知识服务两个重要组成部分。其中,数字化管理包括数字信息采集、数字信息转换、数字信息存取和知识发现四部分;知识服务包括资源分类、用户建模、反馈处理和知识推荐四个组成部分。
⒈ 数字化管理
数字化管理包括数字信息加工、数字信息转换、数字信息存取和知识发现四个组成部分。
数字信息加工的主要功能是从内外部信息源当中获取知识服务系统所需要的各类数字信息并对这些数字信息按照数字档案管理的要求进行加工处理。数字档案信息加工包括数字档案信息整理、格式转换、数字档案信息录入、数字档案信息集成等基本功能。
数字信息转换的主要功能是将经过加工处理的各类非结构化数字信息转换成能被数据库管理系统进行处理的结构化数字信息。这个功能主要是由数字档案管理系统的数字档案信息导入功能加以实现的。
数字信息存取的主要功能是建立数字档案信息数据库、数据仓库和相关链接,建立档案信息资源组织体系,实现档案信息资源的集成、组织、存储、更新与管理。
知识发现的功能是将数字档案管理系统中的原始信息、元数据信息、背景数据和用户信息作为一个整体,从中发现隐含的有规律的信息和规则,是有效地开展数字档案知识服务的重要支持工具。
⒉ 知识服务
知识服务的主要功能是在数字化管理的基础上,通过数字档案信息资源的分类体系的构建和用户信息的获取,构建用户信息需求偏好模型并实施智能知识推荐服务。主要包括资源分类、用户建模、反馈处理和知识推荐四个组成部分。
资源分类的功能是按照数字档案分类标准构建数字档案信息资源分类体系,形成数字档案信息资源分类树,为知识服务提供有序化的数字信息基础。
用户建模的主要功能是在用户信息获取、用户信息描述和用户信息反馈的基础上,建立用户信息需求偏好模型,为有效地开展数字档案知识服务提供模型和算法支持。
反馈处理的主要功能是根据用户提供的各类反馈信息,如用户需求调查反馈信息、用户的操作日志、用户对系统服务功能的评价和建议以及与用户需求相关的其他各类信息等,进行符合系统需要的用户信息编辑、加工和处理,为用户模型的优化和改进提供信息反馈支持。
知识推荐的功能是通过用户信息需求偏好模型的优化和连续改进,针对网络用户的信息咨询请求,推送用户所需要的知识并给用户的决策提供支持帮助。
在知识服务系统中,系统管理、数字化管理和知识服务三个基本组成部分是相互依托和相互支撑的关系。系统管理是系统管理员操作管理层面,主要负责对数字化管理和知识服务所涉及的数字信息、用户、资源、反馈等信息的操作与管理,具有控制整个系统运行的功能。数字化管理是知识服务系统的基础,负责为系统管理和知识服务提供数字信息加工和处理功能,例如利用知识发现工具对数字档案信息资源优化、对用户模型改进、对数字信息关联分析等。
知识服务是系统的外部接口,它在系统管理和数据库处理的基础上完成数字档案信息发布、系统演示、知识推荐和参考咨询的模型和算法处理功能,并通过系统管理完成数字档案信息和知识的输出,实现系统知识服务的总体目标。
The authors have declared that no competing interests exist.