CNNIC(中国互联网络信息中心)的最新调查结果显示,搜索引擎是网民经常使用的第二大网络服务,仅次于电子邮件,它已经成为我们生活中不可或缺的一部分[1]。目前国内外相继推出了学术搜索引擎服务产品,得到了广泛的市场回应,其中最具有代表性的国外搜索引擎当属Summon、EBSCOhost、Worldcat、Scirus。由于资源采编、产品设计和技术支持的限制,这些产品无论在资源覆盖率还是功能上都存较大的差异,采用相同的检索词在不同搜索产品中检索,获得的检索结果数量和检索准确率都存在着很大差异。本文对这四大搜索引擎产品和两种软件系列产品在资源覆盖率、资源质量、检索功能以及检索质量等多角度进行了对比,并在此基础上综合分析了各产品的优缺点对市场前景的影响。
1 主要学术搜索引擎简介
1.1 Summon
Summon是一款专门针对图书馆使用的搜索引擎产品,整合了来自全球6000多家出版社的资源[2]。2008年底由美国ProQuest公司推出,涵盖的资源类型包括期刊、图书、报纸等,本产品只能在已订购用户的网站界面上使用。Summon涵盖了大量资源,在悉尼大学图书馆页面对Summon进行“空检”获得记录数156812300条,其中全文记录145428178条,全文中有同行评审的记录35716857条[3]。
除了资源涵盖广泛外,Summon还可对搜索结果按搜索范围、资源类型、学科关键词、发表时间、馆藏资源、语言等进行筛选,最终将目标文献缩小范围到几十篇甚至几篇。Summon的另一特色功能是馆藏发现和管理功能,图书馆馆员可通过管理员账号进入后台对所有本馆馆藏资源和Summon底层数据库Knowledge Works的资源进行配置分析和管理,很大程度上方便了图书馆的资源整合和对比。
1.2 EBSCOhost
EBSCOhost是 EBSCO的检索系统,通过Internet直接连结到EBSCO的300多种全文数据库和二级数据库(如:ERIC、Econlit、Medline、Psyinfo等),保守估计这些数据库包括8000多种著名期刊的摘要和6000余种期刊的全文,其中1000余种期刊可提供图片,内容涉及商业、管理、财经、医学、教育学、军事、农业、人文等各个方面。
EBSCO host可进行单库检索,也可进行多重库检索,检索功能分为基本检索和高级检索两大类,分别提供关键词、主题、出版物、索引、参考文献等多种检索途径。两大类检索方式除关键词检索功能不同外,其它检索功能均相同。用户申请EBSCO host个人账户后,可建立检索结果文件夹、检索命令文件夹,设定定制服务等[4]。
2010年EBSCO与OCLC签署协议,购买了OCLC下属部门NetLibrary的资产,还购买了可通过FirstSearch检索某些供应商所拥有的数据库的授权[5]。EBSCO计划把NetLibrary eBook装载到电子平台EBSCOhost上,以实现创建一个全面综合的电子图书和数据库检索服务系统的目标。
1.3 Worldcat
WorldCat数据库,创建于1971年,是联机计算机图书馆中心(OCLC)组织世界各国一万多个图书馆参加的联合编目产品[6]。它不仅包括了国会图书馆、大英图书馆、一些国家级的图书馆、世界知名大学等这些大机构的馆藏,而且也包括来自一些小的公共图书馆、博物馆的馆藏。该数据库目前包括470种语言,16亿条馆藏记录,2亿条数目记录。主题范畴广泛,覆盖了从公元前1000年到现在的各类资料,基本上反映了世界范围内的图书馆所拥有的图书和其他资料。文献类型包括图书、web站点和internet资源、计算机程序、胶卷和幻灯片、期刊杂志、文章,文章章节和论文、手稿、地图、乐谱、报纸、录音带、录像带等。
在页面功能方面,提供初级检索和高级检索,初级检索字段包括题名、主题、作者;高级检索字段包括序列号、作者、ISBN、ISSN、期刊来源、关键词、主题、标题,同时可按照年、受众、内容、格式、语言等进行检索限制。检索结果页含有七种分组聚类功能,通过著者、格式、年份、内容、使用对象、语种、主题等对检索结果进行筛选,并提供按相关度、著者A-Z、题名A-Z,时间(最老在前面)、时间(最新在前面)对结果进行排序。
1.4 Scirus
Scirus是Elsevier科学出版社在2001年开发的专门针对研究人员以及学生的免费网络检索引擎[7]。目前已将9千万个网页编入索引中。它还包括1280万条MEDLINE文摘;160万篇ScienceDirect全文;90万项USPTO的专利;近66万篇Beilstein文摘;近25万篇IDEAL全文;10310篇NASA技术报告;将近20万篇来源于E-Print ArXiv的电子文献;1410篇来源于CogPrints的电子文献;565种来自Mathematics Preprint Server的预印本;820篇来源于BioMed Central的全文;465种来自Chemistry Preprint Server的预印本;343种来自Computer Science Preprint Server的预印本。Scirus注册成为OAI服务提供者,平台中大部分OA资源来源于OAI数据提供者。
Scirus的检索功能包括初级检索和高级检索,高级检索的字段包括文章标题,期刊标题,作者名称,作者单位,关键词,issn,URL,还可以进行检索技巧、时间、资源类型、文档格式、资源来源、学科等条件的限制。对于检索结果提供按照来源、文件类型、主题词等方面的分组聚类功能。无细缆页面,点击检索结果直接跳转到文献的原始网页浏览。
2 不同搜索引擎的功能及影响力比较
2.1检索功能比较
资源是搜索引擎的基础,而检索功能则是搜索引擎的核心,它决定了资源能否及时、准确地传递给所需要的用户。下面将从检索的字段限定、时间限定、资源来源限定、文档格式限定、检索结果显示等等十个方面对4个搜索引擎产品进行比较。
表1 四种搜索引擎检索功能比较
|
字段 |
时间 |
资源 类型 |
资源 来源 |
文档 格式 |
主题/ 学科 |
排序 |
偏好 |
二次 检索 |
馆藏 检索 |
资费 | |
|
SUM |
Y |
Y |
Y |
N |
Y |
Y |
Y |
N |
Y |
Y |
Y |
|
EBS |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
|
WOR |
Y |
Y |
Y |
N |
Y |
Y |
Y |
N |
N |
Y |
N |
|
SCI |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
Y |
N |
N |
N |
表1所示是四种搜索引擎检索功能比较,其中,支持资源来源筛选的有Summon和Worldcat;支持检索偏好设定的有EBSCOhost和Scirus;支持二次检索功能的有Summon和EBSCOhost;Scirus不支持馆藏检索功能;在资费方面,Summon只能在已订购用户的界面上检索,EBSCOhost需要登录账号才能操作,Worldcat和Scirus都是开放使用。四种学术搜索引擎都支持字段、时间、资源类型、文档格式、主题和排序等基本功能,但某些功能上有具体的差异,如字段限定方面的差异如表2所示。
表2四种产品所使用的字段列表
|
|
作者 |
文章标题 |
出版物 |
卷 |
期 |
时间 |
关键词 |
ISSN |
主题 |
|
SUM |
Y |
Y |
Y |
Y |
Y |
Y |
|||
|
EBS |
Y |
Y |
Y | ||||||
|
WOR |
Y |
Y |
Y |
Y |
Y | ||||
|
SCI |
Y |
Y |
Y |
Y |
此外,在时间限定方面,Summon最灵活,可设定查找具体日期的文献,其它几种都是按年份筛选;排序方面Worldcat最全面,有五种排序方法,其它几个都是相关度和时间排序;学科分类方面,几种都是按照主题词进行分类限定;二次检索方面Summon最精确。
2.2检索效果比较
选取检索词“erbium oxide”分别在三个搜索引擎中进行检索,结果显示Scirus检索结果最多为26950条,但查准率仅60%,有效词条为16170条;Summon词条数第二为1567条,查准率为88%,有效词条数为1379条;Worldcat虽词条数最少1263条,但查准性最高97%,有效词条1225条。
表3 采用检索词“erbium oxide”在三个产品中的检索效果比较
|
检索结果数量 |
响应速度 |
前30条查准性 |
链接有效性 |
缺点 | ||
|
SUM |
1,567 |
一般 |
88% |
—— |
检索结果列表无序号 |
|
|
WOR |
1,263 |
0.28 s |
97% |
100% |
检索词没标红或黑色 |
|
|
SCI |
26,950 |
一般 |
60% |
100% |
结果中不相关信息多 |
2.3资源涵盖率和质量比较
我们从Springer、Taylor & Francis 、Wiley 、剑桥大学出版社、MIT press 、Elsevier 、Kluwer、Emerlad 、IOP 、Nature 等15家国际顶尖出版社中选取了50种期刊,对Summon、Worldcat、Scirus三大搜索引擎进行了资源覆盖率的评价。统计结果显示:Worldcat覆盖率最高为88%、Scirus第二为64%、Summon的覆盖率最低仅60%。
为了评价资源质量,我们选取了2010年国际期刊SCI排名列表中的前50种刊,分别对Summon、Worldcat和Scirus进行了资源收录质量统计。统计结果显示:Worldcat收录率最高为100%、Scirus其次为72%、Summon最差为56%。
以上评价结果仅供参考。鉴于EBSCOhost已经与购买了OCLC的资源,其资源收录率在未来很可能与OCLC持平或超过OCLC。因此资源质量和收录量排名应该是Worldcat、EBSCOhost、Scirus、Summon。
2.4综合比较
基于前面的调研,我们发现搜索引擎产品中,资源覆盖率和影响力最高的是Worldcat,其次是Scirus,再次是Summon;检索功能各有千秋,其中按照检索功能的多样性来看,EBSCOhost最好、其次是Summon,Worldcat和Scirus功能稍显单一;从检索效果来看,排除EBSCOhost,Worldcat查准率最高、Summon其次。综合分析各方面的影响因素,我们可以发现Worldcat以其最高的资源收录率和最好的资源查准率,成为最佳搜索引擎。
3 讨论
综合分析国际性四大学术搜索产品,我们发现,兼具资源整合功能和馆藏发现功能的产品将占据未来市场的主导地位[8][9],在这一点上Summon走在了前列,但是单就各方面的素质来看,Summon还远不成熟。EBSCO与OCLC强强联合,结合了OCLC的资源以及EBSCO自身强大的检索功能和馆藏整理功能,将成为Summon在国际市场上最强劲的竞争对手;Scirus和Worldcat两大开放平台的存在,将在一定程度上成为Summon的障碍。
展望中国市场,这四大学术搜索平台资源里都缺少中文资源,这一点将成为他们进入中国市场后遭遇国内学术搜索产品竞争的最大软肋,此外,还有其高昂的造价,也会限制其在中国市场的发展。目前,国内的学术搜索引擎产品较少,读秀学术搜索是目前国内较完整的文献搜索及获取服务平台,拥有8亿页中文资料、180万种图书原文、6亿页全文资料等,其优势主要体现在图书资源丰富,支持二次检索以及馆际互借等功能,该产品推出以来已经占据了部分高校图书馆市场;北京同创网讯科技有限公司推出的人机结合专业搜索引擎深度搜,收录了4万种权威中英文学术期刊、6000万篇学术论文、各国专利、中英文百科知识,其特色体现在采用FavorRank算法,将可能出现的二次检索词的搜索结果直接在分类聚集处显示前200条内容。国内同类产品还有NSTL3.0、CNKI学术搜索、万方医学网等,不同的学术搜索产品具备不同的特点,有的资源收录全面,有的检索功能强大,有的界面简单明了,共同在学术搜索市场上扮演着举足轻重的角色。
致谢:本文与任胜利博士充分讨论,并经他修改,感谢他在文章写作过程中给予的帮助;感谢薛德军博士在文章选题方面给予的宝贵意见。
参考文献:
1CNNIC: [2010-09-15]. http://www.cnnic.net.cn/index.htm
2Serials Solutions: [ 2010-10-06]. http://www.serialssolutions.com/
3悉尼大学图书馆:[ 2010-09-16]. http://www.library.usyd.edu.au/
4 EBSCOhost 用户指南
5 OCLC: [ 2010-10-19]. ww.oclc.org/asiapacific/zhcn/default.htm
6 Worldcat: [2010-09-17]. c.org/asiapacific/zhcn/worldcat/default.htm
7 Scirus: about us. [2010-10-21]. http://www.scirus.com/srsapp/aboutus/#pmc
8 王庆民. 互联网搜索引擎的发展、应用和特点. 农业网络信息, 2009, (05): 98-101
9李志明. 谷歌、百度、读秀三大中文图书搜索引擎比较及启示.图书馆工作与研究, 2009, 162(08): 64-66
作者:汤梅1) 杨旭东2) 郑迎新2)

