我要投稿
您当前的位置:365bet官方 -> 论文中心 -> 社会学论文 -> 图书情报论文 -> 论文内容

元数据与专业置标语言在数字图书馆中知识表述方面的功能_图书情报论文

论文作者:佚名    论文来源:不详    论文栏目:图书情报论文    收藏本页

【 标 题】元数据与专业置标语言在数字图书馆中知识表述方面的功能
【英文标题】Metadata and Domain-Specific Markup Languagesin Knowledge Representation in Digital Libraries
  Marcia Lei Zeng
  (Kent State University, USA)
【 作 者】曾蕾
【作者简介】曾蕾,美国肯特州立大学
  曾蕾,女,武汉大学硕士,美国匹兹堡大学博士,现为美国肯特州立大学副教授,在国内外重要学术刊物及国际会议上发表论文50余篇。
【内容提要】以处理文献资源为基本目的的元数据标准(如Dublin Core, IMS andLOM)和专业置标语言(如MatML, MathML, CML, GML)近年来都在以前所未有的速度向前发展,然而其发展和应用却缺乏相互沟通和操作。数字图书馆建设过程中通常会遇到在不同水平上对文献处理的各种格式和方法进行选择与应用、这些格式和标准如何进行互操作等问题。本文分析用于描述文献资源的元数据和面向专业的置标语言在数字图书馆中对知识进行表述的特点和功能,讨论其在对一个资源作结构上和语义上的分解时的作用,指出元数据与置标语言结合的必要性,并提出在同一数字图书馆中将两者结合起来使用的可行方法。
【摘 要 题】专题探讨
【英文摘要】Metadata schemas for resource description (such as Dublin Core, IMS, and LOM)anddomain specific markup languages (such as MatML, MathML, CML, or GML) have evolved dramatically during thelast several years. Much of this development, however, has been a parallel evolution. There is a lack ofcommunication, exchange, and interoperation between the two. A digital library project usually has to deal withselecting, applying, and interoperating the multiple resource description mechanisms that could be used atdifferent information processing levels. This paper analyzes the characteristics and functions of metadata and markuplanguages and discusses their roles in the structural-and semantic-decomposition of a digital resource. Whilepointing out the importance of applying both metadata and markup languages, a number of approaches thatcould be used for integrating them in a digital library are presented as well.
【关 键 词】元数据/置标语言/知识表述/数字图书馆
  metadata/markup language/knowledge representation/digital library
【 正 文】
  [分类号]G254.364 G250.76
  最近几年来,随着数字图书馆项目的全面展开,许多技术标准应运而生,其中比较引人注目的是各种元数据标准和置标语言,这些标准可以是不同级别,为特定类型文献或特定用户团体制作的,也可以是通用型的。值得注意的是,虽然两者都是以处理文献资源为目的,其发展和应用却一直是处于两条平行线上,很少相互沟通或结合使用。本文拟根据对两者在数字图书馆中的知识表述方面的功能的分析,探讨其相互关系及其结合点。
      1 元数据的主要功能
  元数据是有效地组织与处理任何数字化文献资源的必不可少的工作数据。熟悉图书馆工作业务的人常常将元数据编制流程与传统的编目工作划上等号,将元数据标准与编目标准划上等号。然而,从严格的意义上看来,元数据的概念远远大于编目的概念,虽然元数据的思想来源于编目,但已经是青出于蓝而胜于蓝了。
  在后MARC时代中,元数据的发展经历了从繁到简(由MARC的包罗万象,到DC的15个核心元素),从通用到专用(由最早的MARC和只是为了补充MARC所留空缺所做的格式,如档案元数据EAD, 到后来针对各专业和各类型资源的元数据格式),从以描叙为主到集描述、管理、结构、存档、文献保护等多项功能为一体,从仅在图书馆界使用到在教育界、商业界、工业界广泛应用的过程,我们从附表1 “比较通用的元数据标准”中可以清楚地看到这一点。
  用于描述文献资源的元数据实际上不仅仅局限于描述有关文献特征与内容,往往还包括文献的管理、结构等信息。描述元数据(descriptive metadata)用于描述一个文献资源本身的特征、内容、与其它资源的关系,其主要作用是发掘(discovery)和辨识(identification)。管理元数据(administrative metadata)包括有关数字实体(digital object)的显示、注解、使用、长期管理等方面的内容,例如所有权权限的管理、产生/制作的时间和方式、文件类型、其它有关技术、使用或获取方面的权限管理等。结构元数据(structuremetadata)定义一个复杂的数字实体的物理结构,以利于导航、信息检索和显示。将这3种类型的元数据有机地组织在一起,其主要功能可归纳为:
  ● 资源发掘(resource discovery);
  ● 对电子资源进行组织(organizing e-resources);
  ● 便利互操作(facilitating interoperability);
  ● 数字鉴别(digital identification);
  ● 存档和保存(archiving and preservation)。
  不过,正如表1所示,人们对元数据的分类并不是完全按照这3种类型,一般来说描述元数据和管理元数据是被公认的,但也有强调使用、鉴别、保存等类型的元数据。
  表1 不同文献对元数据类型的划分
CJC(committee on In-   Hodge(NISO): Meta- Gilland-Swetland   Greenburg(UNC): A
stitutional Cooperation) data Made Simpler  (Getty:Intro to Meta- quantitative categorical
1999           2001        data)2000       analysis of 2001
描述             描述        描述          发掘
管理             管理        管理          管理
结构             结构        保存
                         技术          鉴别
                         使用          使用

  
  Greenburg对几个图像元数据标准中的每个元素(element)进行了分析,从下表中我们可以看到单个元素的作用,包括描述、管理、使用、鉴别,其中有些元素可以同时具有多种用途(表2)。
  表2 对单个元数据元素用途的分析
元数据  元素   描述元素  管理元素  使用元素  鉴别元素
标准   总数
DC    15    93%(14)  33%(5)   53%(8)   27%(4)
VRA Core 28    71%(20)  29%(8)   46%(13)   54%(15)
REACH   20    90%(18)  25%(5)   50%(10)   45%(9)
EAD    60    58%(35)  40%(24)  32%(19)   67%(40)

  
      2 元数据的局限
    2.1 元数据的描述功能及局限
  从前表可以看出,“描述”功能是任何元数据标准中必不可少的一项,通过元数据所描述的文献资源的外型特征和内容特征,我们在没有见到原件的情况下,也能对之有所了解。当“辨识”是一个用户的主要目的时,(例如,找到某一作者的某一作品),元数据可以说能相当有效地满足用户需要。过去,由于编目记录与具体的图书资料实体是分开的,人们往往要依赖于编目记录来判断一个图书资料的内容,然后再通过不同手段索取图书资料,因此对编目的描述要求很高。现在由于电子文件与元数据记录往往是联在一起,看到元数据的同时也基本上看到了实体本身,这样“辨识”的需求量就小了,对元数据的与“辨识”有关的描述功能的要求也降低了,这也是为什么一些十分简单的用于描述文献资源的元数据记录在数字化图书馆中对“辨识”要求也能基本满足的原因。
  在其它场合下,例如检索和浏览,用户基本上完全依赖于元数据对文献内容的描述。比如查找关于中国入世的有关信息和数据、中国运动员在2002年冬奥会期间的营养提供、HP与Compact合并的进展等。 这些情况可以分成两类:第一类是特定的专有名称与具体内容的结合,在对这类文献内容的描述中,元数据可以同时采用一些标准名单表(如公司或股票名)或补充新的专有名词(如新的运动员名单);第二类情况是不含专有名称的内容,例如关于某种合金的性能测试,某种疾病的新的治疗手段,时装发展的趋势,等等,元数据主要通过采用词表或关键词来表达文献内容。在这两类情况下,元数据对主题内容的描述成为最关键的(几乎是唯一)的查找依据。
  然而,在元数据标准中用于内容描述的元素可以说是十分有限的(见表3):
  附图
  大多数用于文本型文献源的元数据标准只有一两个专门用于主题内容描述的元素,而且常常是一个给受控主题词,一个给非受控主题词,如表3的中栏所示。不管文献的内容有多丰富和专指, 都只有放在这一两个元素所代表的范围内。其它能起到一些主题内容查找作用的成分主要限制在文献涉及的时间、地点、目的等方面(见表3右栏)。 从以上分析可以看到元数据描述功能的不足之处。
    2.2 元数据的存在形式及局限
  另外一个问题是元数据记录的存在形式。不论你做了一条多么好的元数据记录,给了多少个主题词,这条记录只是原文献的一个附属品(surrogate)。
  一般来说,虽然元数据记录可以被嵌(embed )在一个网页的原码中或附(attach)在一个文件上,大多数数字图书馆(digital library)或数字化文献库(digital collection)都将元数据记录存(store)在专门的书目数据库里或文档里,供随时查找或检索。这样,当我们查找任何课题时,也许我们会得到一份书目单,上面将我所要找的书、文章、图像、声像、软件等资源的所在地一一列出,如果这些资源是电子版的,这个书目则可以直接链接到各原文献,使我们马上可以“拿”到该文献,问题是,当一份文献含有多项内容或是体积与结构比较复杂时,我们

我要投稿   -   广告合作   -   关于本站   -   友情连接   -   网站地图   -   联系我们   -   版权声明   -   设为首页   -   加入收藏   -   网站留言
Copyright © 2009 - 20012 www.www.ct131.com All Rights Reserved.365bet官方 版权所有