2009-7-26 1
第 2节 联机检索联机信息检索 (Online information retrieval)是指建立在计算机联机处理方式上的信息检索,即检索者通过检索终端和通信线路直接查寻检索系统数据库的计算机检索方式。用户采用终端并通过通信线路,以与检索系统对话的方式直接访问数据库,进行存储、检索、打印、修改数据等处理。
联机检索的产生与发展联机检索的基本构成联机检索的基本程序
2009-7-26 2
一、联机检索的产生与发展
1、萌芽。 1962年,美国麻省理工学院的 M.M,凯塞利用 IBM709电子计算机和
IBM2741多通道控制台进行了世界上首次联机检索试验。 1964年,美国洛克希德公司首次研制 Converse联机检索系统,随后研制成功 RECON系统。
并在此基础上创建了 DIALOG检索系统。 1965年,SDC与 ORBIT系统。美国国立医学图书馆的 MEDLINE以及斯坦福大学的 SPIRES系统等。
2、兴起。从 20世纪 70年代中期起,联机检索技术在世界范围内蓬勃兴起,
并在各个领域广泛应用。联机检索数据库从以二次文献为主发展到全文型、
百科全书型、事实型和数值型等多样品种,应用领域从科技扩展到经济、
金融、出版等各领域。
世界上重要的联机检索系统美国在文摘与索引数据库领域有 DIALOG信息服务社,SDC的 ORBIT检索服务社、文献检索公司 BRS信息技术部、美国国家医学图书馆 MEDLINE等科技信息联机检索系统;在全文数据库领域,有 MEAD数据中心,News
Net,Data Times Corporation;在数值商业数据库领域有 DRI/Mc-Graw-Hill;
在面向消费者的数据库服务领域有 CompuServe信息服务部。此外还有
Information Bank,CIS等各种联机检索系统。
2009-7-26 3
近年来美国出现了超级市场型数据库联机服务系统。 Telebase数据库服务公司将欧美各国的 DIALOG,BRS,SDC,QUESTEL,VU/TEXT,News
Net,Pergamon,Infoline等系统约 600种数据库纳入自己的检索网,用户可以选择和检索每个数据库。 UNIS信息服务公司,也将 DIALOG、
DELPHI,COMTEX提供的 120多种数据库纳入系统,专门提供经济、企业和市场信息的信息服务。 SOURCE系统提供职业、航空路线和时刻表、
电影评论等信息服务。 COMPUSERVE系统提供电子菜谱、购物、影视、
音乐信息等数据库服务。
除美国外,德、法、英、日都是联机检索发展的大国。据统计,西欧国家共有 100多个联检系统。这些系统通过分组数据交换网组成了著名的大型信息资源网络,即 EURONET DIANET。它联结了德国的 DATEX-P、法国的 TRANSPAC和 NTI、英国的 PSS和 IPSS、瑞士的 TELTPAC、意大利的
ITAPAC、西班牙的 RETR、比利时的 DSC、瑞典的 TELEPAC、挪威的
NORPAC等分组交换网,拥有 1 000个数据库。
与此同时,发达国家的联机检索正向着产业化方向发展。俄国和东欧国家也已经建立跨国联机检索系统。埃及、韩国等在联机检索系统发展上也有声有色。
2009-7-26 4
序号系统名称原文全称运营机构建立时间数据库( 1985年)
个数 文献量
1 联机对话型信息检索系统
DIALOG system 美国洛克希德导弹与空间公司的分公司
1970 320 1,75亿篇
2 联机医学文献分析和检索系统
MEDLINE (Medical literature
analysis and retrieval on-line
system)
美国国立医学图书馆 1971 27 923万篇
3 书目信息分时联机检索系统
ORBIT (On-line retrieval of
bibliographic information
timeshared)
美国系统发展公司 1973 106 5 500万篇
4 欧洲空间组织信息检索系统
ESA-IRS (European space
agency-information retrieval
service)
欧洲局信息检索服务处 1973 87 3 000万篇
5 加拿大联机咨询系统
CAN/OLE (Canada/on-line) 加拿大科技信息所 1974 22
6 书目检索服务系统
BRS (Bibliographic retrieval
services)
美国书目检索服务处信息技术公司
1976 150 8 000万篇
7 不列颠图书馆自动信息服务系统
BLAISE (British library
automated information service)
不列颠图书馆自动化服务部
1977 14 400万篇
8,远程系统” Telesystems-Questel 法国电信与信息系统公司科技信息计算机检索中心
1980 60 6 000万篇
9 欧洲直通信息检索网络系统
EURONET-DIANE (Direct
information access network in
Europe)
欧洲共同体 1980 600
10 日本科技情报中心联检系统
JOIS-Ⅱ (JICST on-line
information system)
日本科技情报中心 1981 8 2 000万篇
2009-7-26 5
3、我国联机检索四大家族中国的联机检索系统基本上经历了从引进磁带数据库到自建文献数据库、从引进检索软件到自编检索软件、从亦步亦趋到初步壮大的发展过程。
20世纪 70年代末,我国开始引进国外机读数据库磁带并进行联机检索试验;
1981年,北京文献服务处建立起国内第一个联机检索系统,联机文献容量为 500万篇,并在全国 20个城市设置检索终端; 1991年,中国科学技术信息研究所在全国设有 120余个远程检索终端。目前,国内联机检索系统已经初具规模,其中最重要的四大系统是,中国科技信息研究所的 ISTIC系统,北京文献服务处的 BDSIRS系统,化工信息研究所的 CHOICE系统 和机电信息研究所的 MEIRS系统 。这些系统的联机检索终端已经达上百个,
遍布全国 20多个省市。除了上述系统之外,已经建立联机检索系统的机构还有上海科技信息研究所 (ISTIS ORS系统 )、中国医学科学院信息所 (IBM
4316,主要数据库是 MEDLINE)、冶金科技信息所 (CDC,主要数据库是中外金属文献等 )、电子科技信息所 (MV8000,主要数据库是国内外电子科技文献等 )、核科技信息所 (DPS7000,主要数据库是 INIS)等,这些系统大都规模较小或尚未提供商业性联机服务。
2009-7-26 6
3,1中国科技信息研究所的 ISTIC系统 (http://www.istic.ac.cn/)
ISTIC(Institute of Science & Technology Information of China)是全国最早建立国际联机检索终端的机构。 1990年正式提供服务。该系统目前有两台计算机,利用 CDS/ISIS检索软件在 IBM4381机上建立西文联机检索系统,
利用经汉化的 TRIP检索软件,在 VAX机上建立中文联机检索系统。该系统已进入国家公共数据网 (x,25网 ),可通过国家公共数据网和电话网提供中西文联机检索服务。 1990年该系统已有远程终端 40多个,将来准备同国际上大系统实现机-机联网,成为中国科技信息联机检索中心。
目前,ISTIC系统可提供 15个中西文数据库的检索。西文数据库主要有:
,美国工程索引,,,美国工程索引会议论文库,,,英国科学文摘库,,,中情所西文文献库,,,中国学位论文库,,,中国学会学报论文库(英文版),;中文数据库主要有:,中国学术会议论文库,,
,中国重大科技成果库,,,中国适用技术成果库,,,,星火计划” ·适用信息库,,,中文科技期刊联合目录,,,中国专利库,,,中国企业与产品库,等。
2009-7-26 7
3,2北京文献服务处的 BDSIRS系统 (http://bds.cetin.net.cn)
北京文献服务处 (Beijing Document Service,简称 BDS)是 1978年由中国国防科技信息中心和北京市科协共同策划联合组建的。国防科工委和中国国防科技信息中心是 BDS最重要和最直接的用户。
北京文献服务处成立初期,引进了美国 SPERRY-UNI-VAC1100/10型计算机及其配套检索软件 UNIDAS。经过消化与改进,于 1981年建起了我国最早的实用型联机检索系统,并陆续在西安、上海、成都设立了远程终端,实施联机检索。后来又在引进软件的基础上,自行设计和研制出一套新的信息检索软件,在引进的 UNISYS/1100-72型大型计算机上实现了中西文兼容检索。这就是现在的 BDSIRS(Beijing Document Service Information
Retrieval System)联机检索系统。经过十几年的发展,BDSIRS已经成为国内系统配置最大、信息量最多的联机信息服务中心。
目前 BDSIRS系统有各种数据库 20多种,文献量逾 2 200万篇,联机终端 200多个,遍及全国 60多个城市。国内信息库:中国国防科技信息,中国军工报,
网上新闻库,国防科技成果综合推广库,现代军事,中国工程院院士学术报告,国防科技简讯;国内成果交流库,国防科技报告中文馆藏库,国防科技中文文摘库,中国经济信息库,中国科技期刊题录库,中国专利文摘库。国外信息库:电子书库,外文馆藏库。
2009-7-26 8
3,3化工部的 CHOICE系统化工联机信息检索系统 (Chemical Online Information Center)是专门从事各种化学化工文献库、数值库的建设、经营和服务的系统。这一系统自 1979
年首次引进 CA机读磁带数据库并开展定题服务以来,经 10多年的发展,
于 1991年 1月正式投入联机服务。其主机为两台 DPS7000/150,应用引进的 MISTRAL软件,并经汉化提供中英文数据库检索。该系统于 1990年
12月进入国家公共数据分组交换网,通过公用电话网和公共分组交换网向全国用户提供联机检索服务。到 1992年,已有联机终端用户 170个,
是我国目前最大的专业信息检索系统。
目前,CHOICE系统拥有 9个联机数据库,除,化学文摘,(CA,1987~1989)
是英文数据库外,其余均为中文数据库。主要有:,中国化工文摘,,
,中文科技资料目录 ——化学工业,,,化工新闻,,,中国化工产品,,,化工产品进出口统计,,,全国科技成果交易信息库,,,中国药学文摘,,,国外化工产品价格,等。
2009-7-26 9
3,4机电部的 MEIRS系统
MEIRS(Ministry of Machinery & Electronic Industry Information Retrieval
System)是机电联机信息检索系统的缩写。机电部科技信息研究所
(国家机械工业局计算机信息联机网络 )于 1982年在 HP3000Ⅱ 机上利用引进的加拿大 MINISYS检索软件和引进的磁带版,机械文摘,提供回溯性检索服务;后来又相继引进了,金属文摘,,,工程索引,
和,工程材料,,并提供这些英文数据库的联机检索服务。在此基础上,又利用 CMINISIS软件提供中文数据库检索服务。该系统目前已进入国家公共数据网,并通过该网和公用电话网与国内 20多个远程终端相联,提供联机检索服务。
MEIRS系统目前有 8个数据库,除以上 4个引进的英文数据库外,还有
4个自建中文库,它们是:,中国机械工程文摘,,,国外科技资料 ——机械工程,,,机械工业科技成果信息库,,,中国机电企业信息库,。
2009-7-26 10
我国联机检索发展的优劣势分析国内联机检索系统优势:首先是节省费用。国内联机系统检索费用一般不到国际联机系统的一半,且这些系统也提供了一些国际联机中常用的大型联机数据库,如,化学文摘,,,工程索引,和,美国政府报告通报,等。
其次是直接利用中文检索。解决了联机检索与阅读中的语言障碍,且有些中文资料在国际联机系统中根本检索不到。最后是易索取原始文献。凡是国内系统提供的自建数据库,均可在国内找到相应的一次文献。
国内联机检索系统存在的问题:一是提供的数据库少。目前国内各联机系统提供的数据库,包括英文在内,一般在 10个左右,远远满足不了国内用户的信息需求。二是更新周期较长。以工业技术方面的数据库为例,目前全国具有一定规模的工业技术方面的 45个自建库中,有 24个是年度更新,占
52%;月更新的只占 11%(5个 );半月更新的只占 2%(1个 )。三是检索功能不强。目前国内联机系统提供的检索点非常有限,且不能像 DIALOG系统等国际联机检索系统那样提供灵活多样的检索运算功能。这些都给检索带来诸多不便,也影响了国内联机系统的普及和应用。
2009-7-26 11
二、联机检索的基本构成通讯网络 联机检索中心联机检索中心是联机检索系统的中枢。中央计算机是联机系统硬件的核心部分,具体包括中央处理机、中央存贮器、通讯部件、控制部件和连接外围设备通道的输入输出子系统。联机检索中心还需要配备一些必要的外部设备。
通讯设施是联机检索服务发展的基础。一般包括通讯网络、调制解调器、自动呼叫器、通讯控制器等其他设备。通讯网络一般有公用电话网、专用数据通讯网和公用数据网等类型。调制解调器、自动呼叫器、通讯控制器、
网关等都远程通信系统不可缺少的重要通讯设备。
检索终端是用户向联机检索中心发送或接收信息的设备。
检索终端 M
通讯卫星多路复用器
M 中央计算机外设数据 库
2009-7-26 12
三、联机检索的基本程序
1,接通联机系统 。 建立用户终端与中心计算机设施之间的线路连接,并键入各种密码来表明用户的机构标识 。
2,选择需要检索的数据库或文档 。
如果检索人员对系统的数据库设置和检索课题的主题内容比较熟悉,那么就可以使用简单的系统指令进入所选的数据库进行检索 。 如果检索人员对系统数据库的状况不熟悉的话,就应当借助于系统中设立的索引数据库进行选择 。 例如,? b 411,? sf business,? sf scitech 24,25,27等 。
数据库选择的基本原则:先国内后国外;先免费后收费;先全文后文摘;先镜象后正式 。
数据库选择的基本工具:数据库服务商;公开出版的数据库索引,手册和评论,
如 Information Today公司编制的 Fulltext Sources Online,Williams-Gale出版的 Computer-Readable Database,,中国数据库,;数据库自动选择的工具软件,包括驻留于主机系统上的软件,驻留于用户微机上的工具软件以及正在研制过程中的数据库选择专家系统,如英国 Loughborough科技大学研制的公司信息数据库咨询系统 CIDA,加拿大的 Online-Expert样机系统等 。
2009-7-26 13
3,输入并组配检索词 。
b 34↙? s smoking↙
s cancer↙ 5 375 SMOKING
1 3655 CANCER? s smoker ↙
s carcinoma↙ 6 81 SMOKER
2 2579 CARCINOM? c 5 or 6↙
s lung↙ 7 450 5 OR 6
3 2109 LUNG c 4 and 7↙
c (1 or 2) and 3↙ 8 17 4 AND 7
4 422 (1 OR 2) AND 3
这里,S是选择指令,C是组配命令 。 DIALOG系统还提供有位置算符,截词算符等 。 例如,? S EUROPEAN (W) ECONOMEC (W) COMMUNITY,?
S REDWOOD (W) DECK (F) PATIO,? S (REDWOOD OR PINE) (W)
(DECK OR FLOOR)等 。 位置算符要按照准确的次序来输入 。 输入次序一般是 (W),(N),(L),(S),(F),如有括号,则先执行括号内的位置算符 。
DIALOG系统位置算符的含义及用法
2009-7-26 14
位置算符名称表示法功能 说明及实例
WITH (W)
或 ()
(nw)
表示词与词之间必须紧挨着,中间允许有一空格或标点符号,但词序不变表示两词之间最多可插入 n个词,词序不变 (n为 0,1、
2,3,…,整数 )
S DOUBLE(W)DIGIT或 S DOUBLE()DIGIT
可检出,DOUBLE DIGIT,DOUBLE-DIGIT
S ALLERGIC (1W)REACTION
可检出,ALLERGIC REACTION; ALLERGIC DRUG
REACTION; ALLERGIC CROSS- REACTION等
NEAR (N)
(nN)
表示两词必须紧挨着,但词序可变表示两词之间最多可插入 n个词,词序可变
S FIBER? (N) OPTIC? 可检索出:
FIBER OPTIC,OPTICAL FIBERS等
S ALLERGIC ( 2N) REACTION? 可检出,ALLERGIC
REACTIONS ; REACTION,ALLERGIC ; ALLERGIC
DRUG REACTION; ALLERGIC CROSS-REACTION;
REACTIONS OF THOSE ALLERGIC等
SUBFIEL
D
(S) 表示两词必须在记录中的同一个句子或同一个子字段中出现,词序可变。子字段的含义是由各数据库规定的。一个子字段可以被定义为“在同一个段落中” (如文章的题目或文摘中的某一个段落 )或“在同一个子字段中” (如规范词和非规范词中用分号隔开的规范词和非规范词等 )
S COLOR (S) PIGMENT 可检出:
IDENTIFIERS ; DIFFUSION TRANSFER PNOTOG
RECEPTOR SHEET ; COLOR PHOTOG RECEPTOR
WHITE PIGMENT
(399文档,某一记录的非规范词字段 )
FIELD (F) 表示两词必须在记录中的同一个字段 (如题目字段、
规范字段、文摘字段 )中出现,词序可变
S POLLUTION (F) CONTROL可检出:
CONTROL AND MANAGEMENT OF INDUSTRIAL
POLLUTION (41文档,某一记录的题目字段 )
LINK (L) 表示两词必须在同一规范词单元内再现,词序可变。
同一规范词单元的含义由各数据库规定。有些数据库的规范词字段中,一个完整的规范词可分为主标题词和副主标题两部分,如“美国工程索引”数据库,可用 (L)算符来连接同一规范词单元中的主、副标题词。 (L)算符将检索自动地限制在规范词字段中查找
S COMPUTER (L) CONTROL 可检出:
Descriptor,* AUTOMOBILES* Control Systems
CONTROL SYSTEMS—Computer Applications
AUTOMOTIVE ENGINEERING
(8文档,某一记录的规范词字段 )
2009-7-26 15
4、检索结果的处理。
用户想将检索的结果打印出来,可用联机打印指令 TYPE或脱机打印指令
PRINT。 TYPE指令的使用方式有两种:一是以提问编号联机打印。例如,
在? type 7/4/3中,7为提问编号 (Set No.),4为第 4种打印格式,3为要求打印的命中文献记录的序号。二是以文献记录索取号联机打印。由于在数据库里每篇文献记录都有一个存取号,因此用户也可使用这个编号联机打印文献记录。例如,在? type 4723/7中,4723是文献记录的存取号,7
为第 7种打印格式。脱机打印方式是系统先将用户的脱机打印指令和要求存储在主机内,再由联机系统计算机中心用快速打印机每天三次集中打印处理,然后邮寄给用户。如? PRINT 3/4/1-25,3为提问编号,4为打印格式,1-25是要求打印文献记录的篇数。需要说明的是,在使用输出指令要求计算机输出检索结果时,都需要输入文献的打印格式 (format)。
DIALOG系统打印格式一览表
2009-7-26 16
Dialog系统输出格式一览表书目型数据库格式
1.
存取号
2.除文摘外的全部记录内容
3.题录 4.文摘和题目
5.
全记录
6.题目
7.题录和文摘
8.题目和标引词非书目型数据库格式
1.
存取号
2.公司名称、
地址、电话号码、标准工业代码及规范词
3.公司名称、地址及电话号码
4.带有字段名称代号 (TAG)
的全记录
5.
全记录
6.公司名称
7.全记录
8.公司名称、
标准工业代码、规范词及所有销售表
2009-7-26 17
5,退出联机检索系统 。
? logoff↙
20 Nov 91 4,43:38 User T77
$ 1,96 0,028 Hrs Files 34 7 Descriptors
LOGOFF 4,43,41
CLR DTE 0,17,16 136 62
响应 logoff命令后,系统自动给出了联机时间,联机费用,联 (脱 )机打印费用以及退出系统的时间等信息,并使用户回到网络节点 。 节点提供了一些控制信息 (CLR DTE),表明该检索过程一共经历了 17分 16秒,接收了 136
个段,并传送了 62个段 。 到这个时候,既可以连接另一个联机系统,如
ORBIT系统,重新进行一项新检索;也可以关闭设备,结束检索 。
使用终端进行联机检索的用户一般需要支付通信线路费,数据库使用费与打印费以及管理费等 。 收费情况会数据库的不同而有所差异 。