我要投稿
您当前的位置:365bet官方 -> 论文中心 -> 社会学论文 -> 图书情报论文 -> 论文内容

数字图书馆检索工具探析_图书情报论文

论文作者:佚名    论文来源:不详    论文栏目:图书情报论文    收藏本页

  汤莉华,中国人民大学图书馆硕士研究生。研究方向:数字图书馆资源建设。
【内容提要】基于数字图书馆建设现状,提出引进搜索引擎技术,建立数字图书馆检索工具,探讨检索工具的功能及工作原理。
【摘 要 题】图书情报工作论坛
【关 键 词】数字图书馆/检索工具/搜索引擎/网络信息资源
【 正 文】
      1 关于数字图书馆的设想
    1.1 国内数字图书馆的建设现状
  目前,关于数字图书馆还没有一个被公认的定义,从现实建设工作来看,其形式也是多种多样,有时它是一项国家数字资源系统工程(比如中国数字图书馆工程),有时它更像是一个网上书店(如超星数字图书馆、书生之家数字图书馆),而有时它更接近于传统图书馆的数字化、网络化(如上海数字图书馆等)。近几年,我国图书馆的数字化工作和数字图书馆的建设进行得如火如荼,的确取得了很大的成就,极大地丰富了中文网络信息资源,尤其是学术信息资源,为用户查询和利用信息资源提供了方便。
  然而,无论是工程浩大的中国数字图书馆[1]、 上海数字图书馆[2]、还是清华大学建筑数字图书馆[3]等等,都仅仅忙于将馆藏信息资源数字化、网络化,而忽视了对信息量巨大的网络信息资源的组织。
  我们处在一个信息爆炸的时代,因特网信息资源以几何级数的速度增长,导致几个问题的出现:(1)信息过多,用户难于寻找所需信息。带着一定需求的用户在因特网这个信息的海洋中常常迷失方向;(2)信息更新速度快,具较强的实时性,使人工标引难以跟上信息的增长;(3)信息类型多样,除文本信息,还有图像、音频、视频等信息, 给在传统文献信息资源组织方面经验丰富的图书馆编目员提出了新的课题。
  很多高校图书馆和公共图书馆意识到网络信息资源的重要性,在图书馆门户网站的首页中设立“网络导航”或“搜索引擎导航”栏目,提供国内外著名搜索引擎门户网站(如Yahoo、Excit、Altervista、google、百度、天网等)的链接以及学科网络资源导航,对用户查询网络资源起到了引导作用,而不是利用数字图书馆自身的资源为用户提供服务全面的服务,可以说这还不是真正的数字图书馆。
    1.2 我的数字图书馆理念
  到底怎样的数字图书馆才是真正意义上的数字图书馆?从根本上来说,数字图书馆是为了解决网络环境下数字化信息的组织、查询与服务问题[4]。笔者认为判断数字图书馆必须具备这样三个指标:
  第一,数字图书馆具有丰富的数字化资源,包括OPAC书刊目录库、全文数据库、多媒体数据库、网络数据库、网络信息资源库等等。
  第二,数字图书馆能够向用户提供多种类型的信息资源的检索,如书目信息、书刊全文,各种音频、视频信息,还可提供网络信息资源检索服务,如因特网上Web、FTP、Gopher、Wais、Usenet等信息资源。
  第三,数字图书馆将所有信息资源进行整合,实现跨库检索,向用户提供统一的检索界面,检索各种类型的信息。检索到的相关信息在统一的界面中显示。
  参照以上三个指标,发现目前国内建设数字图书馆已经具备的一定的资源和技术基础,比如OPAC书刊目录库的标准化已经实现,自建和购买的全文数据库资源在高校图书馆已经十分丰富,以上海数字图书馆为代表的图书馆在多媒体信息资源建库和检索方面成就显著,而且信息资源的整合和跨库检索在技术上已经不成问题,目前亟待解决的问题是加强和完善对网络资源的组织和管理。
  然而,如果采用图书馆贯用的人工标引的方式,面对浩如烟海的网络信息资源,别说对所有的网络信息进行标引,就是能达到0.01%的标引率也几乎是不可能的。因此,数字图书馆必须采用新的策略和方式对网络信息资源进行标引,向提供信息检索服务。
    1.3 设想的提出
  以上提出的问题是:建设真正的数字图书馆必须实现对网络信息资源的全面搜集、合理组织和有效利用,但传统的人工标引方法面对浩繁的网络资源只能“望洋兴叹”,如何解决此矛盾?以笔者之见,在建设数字图书馆的过程中应引进搜索引擎技术,对网络信息资源采用自动标引和人工标引相结合的方式。
  1.3.1 搜索引擎原理
  搜索引擎是因特网上最重要的应用之一,它能够在浩如烟海的因特网信息中找到用户所需的信息,因此深得广大用户的喜爱。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索软件, 即能够从因特网上自动收集网页的数据收集系统,将收集所得的网页内容交给索引和检索系统,索引和检索系统通过扫描每一个网页中的每一个词,建立以词为单位的倒排文档,再根据关键词在每一个网页中出现的频率对包含这些关键词的网页进行排序,最后输出排序结果。页面生成系统再将结果高效地组装成因特网页面。我们就可以通过浏览器看到检索结果了[5]。
  在国内,人们习惯于把一些能够提供搜索的门户网站称作搜索引擎(比如Yahoo),实际上这是一种误解。从原理上来说, 真正意义上的搜索引擎是基于因特网的搜索引擎,这种搜索引擎收集因特网上几千万到几亿个网页,并且每个网页上的每个词都被搜索引擎所收录,是基于整个因特网的全文检索,其返回的结果可以具体到一个个相关的网页,所以我们称之为网页搜索引擎,或全文搜索引擎。
  利用搜索引擎自动搜集、标引网络信息,这种方式省时、省力,投入小,形成的数据库覆盖面广,可提供关键词、主题词或自然语言等多种检索途径;但由于未经过人工干预,信息加工的质量往往不高,从而使得检索的查准率较低,检索效果不佳。
  1.3.2 值得借鉴的作法——雅虎的信息组织方式
  雅虎的分类目录体系是采用人工标引的方式对网络信息进行组织的成功典范。人们常常把雅虎的目录服务认为是搜索引擎,其实目录服务和搜索引擎是两个完全不同的概念。目录服务是由编辑人员将各种网站按主要内容进行分类,组织成一层一层的分类目录。当我们要查找某类网站时,就按照其属性进入相关类目,一层一层地查找。这类目录服务同时也提供一定的搜索功能,但它的搜索范围仅局限在这个人工编制的目录系统内,当用户提交搜索请求后,这个搜索引擎就会在该目录系统中寻找相关网站,然后作为搜索结果提交给用户,象这种目录服务附带的、基于该目录系统的搜索引擎,我们一般称之为目录搜索引擎,由于其最后返回的结果是一个个相关网站的地址,我们也称之为网站搜索引擎。雅虎分类目录能够克服由机器自动标引带来的诸多问题,因此一时成为其他商业门户网站学习的典范。
  但是,雅虎如果仅仅依靠人工标引的分类目录提供搜索服务,也存在许多无法克服的弊端。比如人工编制主题索引效率低,因而造成建立的数据库规模较小,有些类目下的文件数量有限,有价值的新站点,新内容反应不及时等。因此,雅虎与专门做搜索引擎的公司进行合作。
  虽雅虎公司以“搜索引擎”闻名全球,实际上它只做网站目录,它只有搜索自己网站目录的目录搜索引擎。而雅虎网站上基于整个因特网的全文搜索引擎是由其他专做搜索引擎的公司提供的,以前是Inktomi,现在是Google。其实大多数商业门户网站的搜索引擎都是引进的,如美国在线、微软的MSN都采用“Inktomi”公司的搜索引擎技术和服务;国内的中国人、硅谷动力、广州视窗均采用百度的搜索引擎服务;第一华人中文网站新浪在去年11月23日宣布采用百度提供的中文网页搜索服务,推出新的综合搜索引擎系统,在与百度结束合约后,今年8月7日它又宣布与搜索新军慧聪合作,采用该公司的网神搜索引擎服务。
  相比较而言,雅虎将自身的目录服务和Google搜索引擎结合得相当完美。从显示格式来看[6],雅虎将检索结果分为“相关分类”、 “相关网站”、“相关网页”、“相关新闻”四项,其中“相关分类”、“相关网站”的内容来自雅虎自己的分类目录,“相关新闻”的内容来自雅虎资料库,而“相关网页”的内容则是Google的搜索结果。在用户输入检索词,点击搜索后,雅虎的搜索工具实际上进行的是跨库检索,同时通过接口技术要求Google搜索引擎进行搜索,然后雅虎将所有的检索结果以统一的界面显示,看起来就象是从一个数据库中得到的结果。其响应性能很好,在不到一秒钟的时间里就能提交结果。
  雅虎引进Google搜索引擎,是采用手工方式与机器辅助相互配合对网络信息进行组织,提供统一的检索界面和显示格式。它具有人工标引和自动标引两方面的优点,值得我们在建设数字图书馆中学习、借鉴。
  1.3.3 数字图书馆采用搜索引擎技术的设想
  图书馆的编目人员在长期的工作实践中积累了丰富的对信息资源进行分类的理论和经验,在网络信息资源逐步发展成为一个巨大的、不断迅速增长的资源库以前,图书馆工作人员对传统文献信息资源的组织是相当成功的。然而,一旦面对网络信息资源,这种人工标引方式就显得力不从心了。以CALIS网络重点学科导航库[7]为例,它是“211工程”立项高校图书馆共建项目。其目的是建立在INTERNET网上的导航库,收集整理有关重点学科的网络资源,为这些已立项高校重点学科服务,让在重点学科领域的师生,以较快的速度了解本领域科技前沿研究动向和国际发展趋势。重点学科导航库的建设工作进行了近2年,共有48 个图书馆参加该项目共建,各图书馆都投入了大量的人力来完成该校重点学科导航库的建设。目前已完成213个重点学科导航库建设,共收录了6万多个较重要的学术网站。导航库网址的搜集和摘要都是由人工完成,耗费了大量的人力、物力,而导航库的资源只是整个网络资源库中微不足道的一小部分。所以,在数字图书馆资源建设中引进搜索引擎技术,可以节省人力、物力、财力,保证资源的完整性、全面性。
      2 数字图书馆检索工具
    2.1 定义
  仅仅是引进的搜索引擎,还不能作为数字图书馆的检索工具,所谓数字图书馆检索工具,是基于因特网信息资源和数字图书馆的信息资源库,利用统一的检索平台和用户界面,提供各种类型信息资源的检索服务的系统。
  数字图书馆检索
我要投稿   -   广告合作   -   关于本站   -   友情连接   -   网站地图   -   联系我们   -   版权声明   -   设为首页   -   加入收藏   -   网站留言
Copyright © 2009 - 20012 www.www.ct131.com All Rights Reserved.365bet官方 版权所有