dialog
DIALOG是世界上最大的专业化国际联机检索系统,它集成了近 500个数据库,
涵盖了全球大多数学术和商用数据库资源,是专业化信息查询的主要工具。目前 DIALOG已在 INTERNET上开设 Web检索界面,其主页 URL为
http://www.dialogweb.com,如图 5.1
图 5.1 DIALOG Web主页
为了充分发挥搜索能力,DIALOG研制了一套专门的搜索技术;为了充分利用这些技术,下面先作专门介绍。
5.1 DIALOG提供的专门搜索技术
5.1.1 专用搜索命令
5.1.2 逻辑组配
5.1.3 截词技术
5.1.4 限定技术
5.1.5 搜索策略问题
DIALOG除提供布尔逻辑组配搜索技术外,还提供包括专用搜索命令、截词、词位限制、检域限制等在内的一系列专业化搜索技术。现分别介绍如下
5.1.1 专用搜索命令
(1)b 命令:
b 命令是 begin的缩写,用于查询时打开特定的数据库 (在 DIALOG中也称为文档,File),使用格式为:
b fileno 或 b filegroup
其中 fileno是文档号,DIALOG一共有近 500
个数据库,每个数据库编定一个或几个文档号,
filegroup是文档群代码,DIALOG按学科专业划分了近 200个文档群,每个文档群用几个字母缩写来表示,包括若干个具体文档,查询时只要指定文档群代码,就同时搜索其包括的所有文档。例如,计算机科学的文档群代码为
COMPSCI,
下列命令是有效命令:
b 399
b COMPSCI
而且,可以用 b 命令同时打开不超过 200个文档,此时文档号之间用逗号隔开,例如:
b2,4,6,8,14,35,347,348,653,654
当然,应注意每打开一个文档都是要付费的。
(2) s 命令:
s 是 select 的缩写,是执行查询的主要命令,
使用格式为:
s words
其中 words是提请查询的词、词组或用逻辑组配结合成的搜索策略,但下列虚词为禁用词 (stop word),a,an,by,for,from,of,the,to,with,而
and,or,not则是逻辑组配专用词。例如:
s Internet
s Internet and Intranet
与 s 密切相关的是 f 命令。 f 是 find的缩写,它是 1996年发布的一个新命令,其功能与 select完全相同,使用区别仅仅在于用 s 进行词组检索时在各词之间要加 ()即 W位置算符,而用 f 则不加,例如,下列查询式等价:
s information()highway
f information highway
与 s 和 f 相关的另外两个命令是 ss和 sf。 ss
是 select steps的缩写,当 words是一个词时,ss
与 s 结果一样;但当 words为多词逻辑组合时,
ss将产生每一步查询结果并依次用集号 S1,S2,
S3,...标记,而 s 只产生一个结果和一个集号。
sf是 set files的缩写,只用于 411文档查询,
表示搜索指定文档,使用格式为:
sf fileno 或 sf filegroup
例如:
b411; sf 2,4,6,8,347,348,653,654
以上命令对字符数的限制为:每一命令后最多可跟 240个字符,包括空格和截词符;每一词或词组最多可以用 49个字符,包括前缀代码在内;对同一查询词最多可加 7个前缀;对同一查询词最多可跟 40字符长的后缀代码;而对逻辑组配的限定是:每一命令最多可用 49个逻辑算符。实际上一般都不会超过限制。
(3)t 命令:
t 是 type 的缩写,用于显示查询结果,使用格式为:
t si/fo/no
其中 si是集号,系 s 命令所产生,打开一个特定数据库后,第一个 s 命令产生 s1,第二个 s
命令产生 s2,依次类推,t si就是将第 i个 s 命令的查询结果显示出来。
fo是显示格式,每个数据库略有不同,在数据库蓝页中有 Format List,可以查阅,一般情形如:
格式 含义
1 DIALOG Accession No.
2 Full Record except Abstract
3 Bibliographic Citation
4 Full Record with Tagged Field
5 Full Record
6 Title
7 Full Record except Indexing
8 Title and Indexing
也可以直接用 ab,au,so,ti等指定显示文摘,
作者,来源,题目等信息。 no是指查询结果的记录序号,3代表第三篇,1-5代表第一至第五篇,all表示所有记录。例如:
t s1/7/all 表示用 7 号格式显示第一次所有查询结果;
t s2/ab,au,ti,so/1-3 表示显示第二次查询结果前三篇的文摘,作者,来源和题目;
t s3/3,ab/5 表示用 3号格式加上文摘显示第三次查询结果第五篇。
值得一提的是:根据实用经验,t si/7/all式较适合用于期刊论文查询结果的输出,而 t
si/3,ab/all式则特别适合各类文献尤其是专利查询结果的输出。
与 t 命令功能类似的是 d 命令,是 display
的缩写,其使用格式与 t 相同,唯一的区别是,t 命令是连续显示查出结果,而 d
命令则是逐屏显示查出结果。 t 命令 d 命令对字符数的限制为,每一命令后最多可跟 240个字符;每一命令可显示 39个字段。
(4)rd命令:
rd是 remove duplicates的缩写,用于对来自不同数据库的文献进行“去重”,使同一篇文献只出现一次 (同一篇文献可能被同时收入多个数据库 ),使用格式为:
rd [si]
si缺省时约定为前一查询。
rd命令对避免重复输出、节省查询费用具有重要意义,值得重视。 rd命令每次操作不超过 5000个记录。
(5)logoff命令:
logoff命令是用户与 DIALOG系统脱机的命令,使用格式为:
logoff
执行 logoff后,系统就断开用户与主机的连接,并显示检索时间和费用。
logoff的姐妹命令是 logoff hold,指暂时脱机,输入 logoff hold 后系统保留上次操作打开的数据库和查过的检索集号,用户可以在 30分钟内重新联机继续操作 (不再用 b 命令 )。
5.1.2 逻辑组配
对话系统所用的布尔逻辑组配与通用的布尔逻辑组配一样,主要包括使用,和 (and,*)”、
“或 (or,+)”,“非 (not,-)”三种基本逻辑算符,
这是现行计算机检索的基本技术。其优先级依次为 NOT,AND,OR,改变优先级的方法是使用()。就象数学运算中一样,括号内的逻辑式优先执行。对话系统中 *等价于 AND,+等价于 OR,为缩短检索式和醒目起见常被使用。
5.1.3 截词技术
在英语等西方语言中,词根相同、含义相近而词尾变化的词很多,如复数加 s,现在分词和动名词加 ing,过去分词加
ed,等等,为使查询时不遗漏相关词,很多查询系统都发展了截词技术。各个查询系统使用各自规定的截词符号,在对话系统中,用?作为截词符,而且包括后截、中截、前截等。
主要有以下情形:
符号 意义 实例
? 后截断或中截一字符 system?; wom?n
后截一字符 system
后、中截二字符 act; encyclopdia
后、中截三字符 computat
5.1.4 限定技术 (位置算符)
DIALOG提供的限定技术包括词与词之间的位置限定算符、前缀代码、后缀代码和关系算符。
位置限定算符 (Proximity Operators)主要有:
算符 用法 意义
W A(nW)B A,B两词相隔 n词且前后次序不变符合查询要求; n=1时即 A()B
N A(nN)B A,B两词相隔 n词且前后次序不限符合查询要求; n=1时即 A(N)B
L A(l)B A,B两词若出现在同一主题词字段 (DE)中则符合查询要求
S A(s)B A,B两词若出现在用逗号连接的子字段中则符合查询要求
F A(f)B A,B两词出现在同一字段中就符合查询要求
从限制的严格性看,F,S,L,N,W依次渐严,而且都比
AND严。在执行优先级上,F,S,L,N,W比 NOT,AND,OR
优先。
前缀代码 (Prefix Code)主要有:
AU= 限查特定作者
JN= 限查特定刊名
LA= 限查特定语种
PN= 限查特定专利号
PY= 限查特定年代
后缀代码 (Suffix Code)主要有:
/TI 限在题目字段中查
/AB 限在文摘字段中查
/DE 限在主题字段中查
关系算符 (Relational Operators)有:
,包含范围,如出版年 PY=1990:1998
> 大于
< 小于
>= 大于等于
<= 小于等于
有了以上检索技术,对话系统就能处理较复杂的查询提问,这种处理能力一般远比万维网搜索引擎和元搜索引擎强,它通过特定的搜索策略实现。
5.1.5 搜索策略问题
搜索策略是对查询的全面策划,在操作上主要指数据库的选择和检索式的编制,前者选择数据库资源,后者实现检索目标。一般也直接将检索式视为搜索策略。
由于搜索策略在机检中具有决定检出结果的重要地位,故编制和调整搜索策略意义极其重大,其一般程序是,1)确定检索词和截词、
位置关系; 2)组配成式并优化 (分配律对逻辑运算成立,故可以作“提取公因式”等运算 ); 3)
实检和反馈调节。
例如,对“微藻生长因子”这一课题来说,搜索策略可编为:
(algae+algal+microalgal) *
growth()factor
实检后调整(考虑提高查准率)、优化
(低频词和关键词前置)为:
(microalgal+algae+algal)(s)growth()factor
进一步严格限制并指定在题目和文摘字段查询则为:
(microalgal+algae+algal)(3n)growth()factor/ti,ab
在 s 命令后输入相应搜索策略就可提交作实际查询。
又如,对于“掺锑硅单晶”这一课题,由于
“硅单晶”有多种写法,“锑”也有多种写法,
就应该全部列入搜索策略:
(silicon()single()crystal+single()crystal()silicon+m
onocrystal()silicon)*(doped+dopant)*(antimon
y+stibium+Sb)
实际查询时可以进一步约化和限定为:
(silicon()single()crystal+(single()crystal+monocry
stal)()silicon)(s)(doped+dopant)(s)(antimony+st
ibium)/ti
再如,对于“妇女与英国经济发展”这样的课题,也应该将各个词的写法考虑全面:
wom?n*economic()develop?*(Eng?+UK+Brit?)
但这样查出的文献误检会太多,最好编制得更具体些:
(woman+women)(f)(economic+economical)()dev
elop?(f)(England+
English+UK+British+Britain?)/ti,ab,de
有了上述知识,就可以进入对话系统实际查询了
5.2 DIALOG Web用法
为了跟上查询系统发展潮流,DIALOG于
1997年开发出了 WWW型搜索引擎,叫做
DIALOG Web,随后又推出了 DIALOG Select
和 DataStar Web,这些产品极大地推进了
DIALOG与 Internet的结合,也促进了 DIALOG
的网上应用。
在图 5.1中输入用户号和密码 (DIALOG用户号和密码需要专门向 DIALOG公司申请,必须预交开户费用 (美元 ),国内一般是由专门从事信息服务的机构申办 ),可得到如图 5.2所示
DIALOG Web Guide Search页面。
图 5.2 DIALOG Web Guide Search
选择图 5.2中右下方的,Go to Commamd Search”,可得如图 5.3所示 DIALOG Web Command Search页面,
图 5.3 DIALOG Web Command Search
从这些页面可以看出 DIALOG Web提供三项主要功能:
Database,Command Search和 Guided Search,下面分别说明。
(1)Database(数据库扫描 )
Database是专门为扫描数据库设计的免费搜索引擎,双击 Database即可进入,如图 5.4。
图 5.4 DIALOG Web-Database界面
此时必须选择一个具体学科范畴才能进入实质性搜索界面,例如,选择查 Science and
Technology(科技类 )后得到图 5.5 。
图 5.5 用 DIALOG Web扫描科技类数据库界面
或选择 Social Sciences and Humanities(社科类 ),
则得到图 5.6
图 5.6 用 DIALOG Web扫描社科类数据库界面要了解世界上是否发表过研究某课题的论著,可以把该研究课题编成搜索策略形式输入以上查询窗口,从反馈结果就能判断该课题研究成果的多少等信息,这是 Dialog Web的主要用途。
例如,“掺锑硅单晶”这一课题,搜索策略为:
(silicon()single()crystal+single()crystal()sili
con+monocrystal()silicon)*(doped+dopant?
)*(antimony+stibium+Sb),输入图 5.5科技类查询窗口,并限定在文献题目字段
(/ti)扫描,如图 5.7所示。
图 5.7 用 DIALOG Web扫描
反馈结果如图 5.8。记住用文本格式及时存盘,
此时 Save As...和 Save Frame As...的结果是一样的。
图 5.8 扫描结果存盘
(2)Commamd Search(命令搜索 )
Command Search是 DIALOG Web收费查询界面,过去在各图中选击
Command Search 即可进入,如图 5.9。现在直接位于图 5.3下方。
图 5.9 DIALOG Web收费查询界面
也可以在图 5.8中点击 Select All,选中所有扫描到的结果,如图 5.10所示,再选击页面上的 Begin
Databases按钮,系统也会自动转入图 5.9。
图 5.10 选中所有扫描结果后转入命令搜索
根据数据库扫描信息在命令搜索界面键入打开数据库并提取文献信息的命令集如下:
b6,8,32,347,348,654;s
(silicon()single()crystal+single()crystal()silicon
+monocrystal()silicon)*(doped+dopant)*(antim
ony+stibium+Sb)/ti; rd; t s2/3,ab/all
点击 Submit(提交 )后,如在 DIALOG Web
其他界面耗时过长,系统会再次要求输入用户号和密码,如图 5.11所示。
图 5.11 系统要求输入用户号和密码的页面
输入的用户号和密码检验通过后,系统会按照用户要求输出文献信息,此时要记住及时存盘,存盘完成后立即输入 logoff hold或点击 logoff按钮,如图 5.12。
图 5.12 DIALOG输出结果
(3)Guided Search(菜单式搜索 )
Guide Search 是 DIALOG设计的菜单选择式查询途径,即所谓“傻瓜”查询方式,在以上各图中选击 Guide Search 即可进入,如图 5.13。
图 5.13 DIALOG Web的菜单搜索界面