计算机检索基础与因特网的使用第一节 计算机检索基础知识数据库的一般结构
在计算机检索系统中,数据库是一种经过编辑组织以机读形式出现的记录集合。不同的数据库,其结构也不相同,所提供的检索途径也有差别,但无论什么类型的数据库其基本结构具有共同的特征:
1.字段、记录、文档
字段是文献著录的基本单元,反映文献外部特征和内容特征的每一个项目,在数据库中就称为字段,在数据库中每一个字段,往往都给予一个字段名。如Title,字段名为TI;Author,为AU;SO为文献来源,AB是文摘字段,PY为出版年份,SN为国际标准书号ISSN,DE为叙词或主题词,CS为著者单位。在某些数据库的检索中,在上机检索前必须了解数据库的字段名。
记录是由若干不同字段组成的文献单元,一个记录在数据库中往往代表一篇文献,在数据库中每一个记录都有一个记录号,与检索工具中的文摘号类似。
文档,由若干数量的记录所构成的数据集合,在一些大型联机检索系统中称作文档。如DIALOG系统中399号文档是美国化学文摘(CA),211号文档是世界专利索引(WPI)。
2.顺排挡、倒排挡
以固定的字段顺序,按文献输入先后排列的文档,称为顺排挡。顺排挡是文献数据库的基本单位,相当于手工检索工具的文摘正文部分,全面记录着文献的各个特征,但要在顺排挡中检索文献,检索速度相当慢。
将顺排挡中某些文献特征的字段抽取出来,再按一定的规律排列而形成的文档,称为倒排挡。倒排挡相当于手工检索工具中的索引部分,因而往往也称作索引。倒排挡大大加快了数据库的检索速度,在数据库的编制中,建立倒排挡的字段越多,相应的检索途径越丰富,检索效率就越高。
3.基本索引、辅助索引(Basic Index,Additional Index)
Basic Index,是由数据库中的某些字段的倒排挡组成,这些字段通常是能够以主题概念检索的字段,如主题词(DE)字段、关键词(ID)字段、篇名(TI)字段等。不同的数据库基本索引的字段有所差别,因而在检索前要先了解该数据库的Basic Index包含哪些字段。如DIALOG系统的Ei数据库的基本索引包括TI,DE,ID,AB四个字段,而WPI数据库只包含ID一个字段。
Additional Index,除Basic Index包含的字段外,其他建立倒排挡的字段都是辅助索引。在检索中,基本索引的检索与辅助索引的检索有所不同,基本索引检索不用加字段名,而辅助索引的检索需加字段名,如要检索ARAI写的文章,检索式应为AU=ARAI。
二、国际联机检索系统(On-Line Retrieval)
联机检索,是指用户通过终端和通信线路,从信息检索系统存储的文献数据库中检索自己所需的信息。国际联机检索系统是以大型计算机为核心,大容量存贮设备为基础,以公共数据交换网或电话通讯线路为传输媒介建立起来的大型计算机情报检索系统。只要通讯线路能延伸到的地方都能进行异地远程通讯检索。
1.DIALOG系统
DIALOG系统是国际上最著名、规模最大的联机检索系统。目前该系统拥有三台大型计算机,总存贮量共达十八万兆,与两个卫星通信网络相连,在全世界80多个国家和地区有10多万个终端用户,系统每天24小时为用户提供联机检索服务。目前该系统建有400多个文档,文献存储量达2亿多个记录,文档的专业范围遍及科学技术、政治经济、商业、新闻等。DIALOG公司还将数据库文档制作成各专业的数据库光盘,单独出版。
2.ORBIT系统
ORBIT系统是目前世界上仅次于DIALOG系统的国际联机检索系统,是始建于60年代的国际著名联机检索系统。文献存储量达1亿条记录,200多个文档。
3.BDS系统
BDS系统是我国最大的联机检索系统,属北京文献服务处。该系统文献存储量达1千余万条,该系统的数据库主要是专利文献和美国政府报告。该系统在全国各地拥有数百个终端用户,由于国内的联机检索费用较低,因而利用率要高于国际联机检索。但国内联机检索数据量太少无法满足各专业的用户需求。
三、光盘检索网络
光盘是一种存储量大,价格低廉的计算机存储设备,是采用激光、计算机、数字通讯和光电集成等现代高科技成果的结晶。目前CD-ROM(Compact Disk Read Only Memory)只读式光盘在图书馆中广泛应用,每张光盘的信息存储量达650兆,相当于3亿多汉字。普通软盘的1600倍,缩微平片的1200倍,相当于30万页A4型纸的信息量。存取速度快,仅用0.5秒就可以从1张存有几万页资料的文献中检索出需要的一页。
1.光盘检索系统的基本原理
光盘检索系统由光盘、CD-ROM驱动器、计算机并配以相应的驱动软件和检索软件构成。
2.光盘检索网络系统
单机的光盘检索系统随着光盘数据库的大量涌现,检索时需频繁换盘,给用户带来不便。并且同时只能有一个读者使用而无法充分发挥昂贵的光盘数据库的效益。在计算机网络技术的基础上开发了光盘检索网络的硬件和软件,形成了光盘检索网络系统。目前建成的光盘检索网络系统有多种模式,共同的特点是拥有能同时运行几十张光盘的光盘塔驱动器,有可供上百个用户同时检索同一张或不同光盘的光盘网络软件。由于光盘网络检索系统不用换盘,可多用户共享数据库,充分发挥了光盘的作用,在国内外高校图书馆中得以迅速的发展。
四、布尔逻辑运算
在计算机检索中,逻辑运算是常用的方法。用逻辑运算的方法反映检索词之间的关系,能达到提高检索效果的目的。常用的逻辑运算有三种:逻辑与、逻辑或、逻辑非。
逻辑与:机检的输入符号为“*”或“AND”,是反映概念之间交叉和限定的一种组配。A*B,表示数据库中既含有A概念又含有B概念的文献才被命中。用逻辑与可以逐步缩小文献的检索范围,提高文献命中的准确性。
如:乙烯的水合反应 A:ethylene A*B (交集)
B:hydration A AND B
逻辑或:机检的输入符号为“+”或“OR”,是反映概念之间并列关系的一种组配。A+B,表示在数据库中只要含有A概念或B概念的文献都可命中。用逻辑或可以扩大文献的检索范围,防止漏检,以提高文献的检全率。
如:石油和天然气 A:petroleum A+B (并集)
A B B:natural gas A OR B
逻辑非:机检的输入符号为“-”或“NOT”,A-B,表示在数据库中,在命中含有A概念的文献集合里,去除同时含有B概念的文献。逻辑非也是一种缩小检索范围的概念组配方法,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用,在联机检索中以降低检索费用。
如:石油炼制催化剂以外的催化剂 A:catalyst A-B
A B B:petroleum refining A NOT B
逻辑运算符是计算机检索过程中广泛采用的一种方法,在各检索词之间合理地、综合运用逻辑运算是提高文献命中准确性和文献的查全率的基本方法,其运算次序为:“NOT”“AND”“OR”,括号中先运算。
练习:
沸石分子筛的吸附 A*B
A:zeolites B,adsorption
顺丁烯二酸酐的制备 A*(B+C)
A,2,5-furandionc B,prepn,C,manuf.
石油和天然气的脱硫 (A+B)*C
A:petroleum B,natural gas C,desulfurization
润滑酯的生产工艺和设备 A*B*C* (D+E)
A,IPC C10M05 B,lubricant C,grease D,technology E,equipment
红外光谱与质谱在石油分析中的应用 (A+B) * (C*D)
A,IR B,MS C,petroleum D,analysis
第二节 因特网的使用一,Internet 的概况
1969 年代末美国国防部出资兴办ARPAnet (Advanced Research Projects Agency Network-高级研究计划局)项目。当时开通时只有4个点。
1970年诞生了用于网络互连的标准、通用的网络协议TCP/IP(Transfer Control Protocol/ Internet Protocol) 协议。
1987 年,NSF(National Science Foundation美国国家科学基金会)选择了IBM(计算机制造商)、MCI(长途电话公司)、Merit(密执安州一个区域性网络服务公司)提出的一个联合方案,合作建立新的广域网。MCI 提供长途传输线路;IBM 提供专用的计算机和软件;Merit 管理这一网络。1988 年 NSFnet 取代了 ARPAnet 而成为 Internet 的骨干网。1990 年 ARPAnet 停止运行。
1992年IBM、MCI 和 Merit 组建了ANS(Advanced network and Services高级网络和服务公司)。ANSnet的传输速率是 NSFnet 骨干网的 30 倍,达到45Mbps。
Internet 的发展经历了3个阶段。研究网、运行网、商业网。
到1998年3月,全世界Internet 用户人数已达1.1亿。预计到2000年,Internet 上将有100万个网络,1亿台计算机和10亿个用户。
二,Internet 在我国的发展情况
我国的Internet 发展大致经历了3个阶段。
第一阶段是从1987年到1994年。中科院高能物理所是我国首家连入Internet 的单位。第一批Internet 使用者是全国1000多名科学家。
第二阶段是从1994年到1995年的教育科研网发展阶段。中关村地区教育与科研示范网络NCFC(National Computer & Networking Facility of China即国家计算机与网络设施工程,简称中关村网),1994年3月开通了速率为64Kbps的Internet国际出口专线,中国网络域名也最终确定为cn,这标志着我国正式加入Internet。
第三阶段是从1995年开始的商业应用阶段。1995年5月,邮电部开通了我国公用Internet 网Chinanet。1996年9月,电子工业部ChinaGBN又开通。
四大互联网络
目前我国已建成了四大互连网络:CSTnet中国科学技术网、CERnet中国教育与科研网、Chinanet中国公用Internet 网、ChinaGBN中国金桥信息网,有6个Internet国际出口:中科院高能所、中科院网络中心、清华大学(10M)、北京化工大学、邮电部(北京、上海)、电子部吉通公司。
三,Internet 的服务与工具
Internet服务根据形式可以分成3大类:工具类、讨论类、信息查询类。
工具类服务包括:Telnet、E-mail、FTP、Archie等。
讨论类服务包括:News、BBS、IRC(在线聊天系统)等。
信息查询服务包括:Gopher、Wais(广域信息服务系统)、WWW等。
此外还有网络会议、网络游戏、网络广播、网上教学等。
四,TCP/IP协议简述
ARPAnet 最初设计因特网的目的是用以支持军队的一项研究,即:设计建立一个网,当它的一部分被迫停止运行时(例如遭核弹袭击),此网仍能完成工作。Internet 是建在把全世界的网络集合起来的基础上的。在这些网络上可能连接许多不同类型的计算机,因此,必须有个共同的东西通过某种方式把它们都连在一起,这个东西就是TCP/IP 协议。
TCP/IP是上百个(用来连接计算机和网络的)协议合起来的共有名字。TCP/IP的实际名字是来自最重要的两个协议,TCP(Transfer Control Protocol传输控制协议)和IP(Internet Protocol互连网协议)。
在Internet内部,信息不是一个恒定的数据流从一台计算机传送到另一台计算机,而是把数据分解成小包,即数据包。例如,当你传送一个很长的信息给远方的朋友时,TCP就把这个信息分成很多个数据包,每一个数据包用一序号和一接收地址来标定。此外,为了使接受方知道数据在传输过程中是否出错,TCP还插入一些校验信息。
接着数据包被传过网络,这就是IP的工作,即把它们传送给远程主机。在Internet 上每台主机都有一个特定的地址(称为IP地址)。IP的任务就是根据地址,在两台计算机之间寻找一条适当的路由。
在接受端的主机上,TCP接收到数据包并检查错误。如果有错误发生,TCP可以要求重发这个特定的数据包。当全部数据包都被正确地收到,TCP再根据序号重新组合成原来的信息。
简言之,IP的工作是把原始数据从一地传送到另一地;TCP管理这种流动并确保其数据正确。
TCP/IP通讯协议有下面三种基本应用:
远程登录Remote Login(命令:Telnet)
顾名思义,就是本地计算机通过网络,连到远端的另一台计算机上去,使用它的资源,这个过程就叫远程登录。
远程登录服务的使用,使计算机资源可以得到充分的利用。例如,个人计算机往往缺乏强大的计算能力,不能进行复杂精确的科学计算,而若知道网上某大型计算机系统正好提供这种服务,用户只需申请一个帐户,就可以登录到大型计算机系统上共享资源,根本不受地域的限制。
远程登录的使用方法:TELNET+远端主机域名(或IP地址)
如:telnet mail.hdpu.edu.cn 可以连到学校的邮件服务器,修改自己的邮件参数;telnet 202.194.145.66 可以连到学校主机。
文件传输File Transfer Protocol(FTP)
文件传输协议是双向的,用户既可以从远程系统获取文件的一份拷贝,也可将本地文件的一个副本传送到远程计算机上。现在好多同学喜欢做个主页,但首先要申请个个人主页空间存放自己的主页,咱们系就提供这种服务。你要想把文件传到服务器,就可以使用FTP,也可以从服务器下载文件,很是方便。
简单邮件Simple Message(Mail) Transfer Protocol(SMTP)
因特网的另一个典型应用就是电子邮件(Electronic Mail,简称E-mail),电子邮件又称电子信箱、电子邮政,它是一种新型的信息系统,是通讯技术和计算机技术结合的产物。目前电子邮件的发送和接收使用两个协议:
SMTP用于邮件的传输,
POP(Post Office Protocol)邮局协议,用于邮件的接收。现在使用POP3协议
五,Internet 上的地址和域名
Internet上的每台计算机和每个用户都有一个地址,能唯一确定每台计算机的位置、区分每个不同用户。通常看到的地址是一组词语或有隐含意义的字母或数字,它们均按标准格式用“.”隔开,这种地址的编排称为域名系统(DNS-Domain Name System)编址。地址可以写成两种形式:
1,IP地址格式
每个IP地址都由4个字节组成,每个字节相当于一个8位位组,每个8位位组的二进制数可以表示成0~255之间的十进制数。有的同学可能要问,为什么要到255呢,大了不行吗?这是因为:二进制的8位数最大就是11111111,而这8个1代表的十进制数就是255。数字之间用点隔开。例如:“202.194.145.66”就表示某台计算机的IP地址。
目前Internet上采用的IPv4协议,其32位长度的地址已经不能满足需求,地址资源存在枯竭的可能。以后网络将采用新的IPv6协议,IPv6协议使用128位长度的地址,是IPv4协议地址长度的4倍,从而大大扩大了寻址空间,使全球任一台计算机都可以分配到一个全世界通用的IP地址。
2,域名格式
例如“www.hdpu.edu.cn”表示中国(cn)教育部门(edu)石油大学(hdpu)的一台www服务器。
“用户名@域名.高层域名”,例如“name @hdpu.edu.cn”表示中国教育部门石油大学用户“name”,而他拥有帐号的那台计算机的域名是“hdpu.edu.cn”。
域名和IP地址是一一对应的。
部分最高级域地区域名
.au 澳大地亚Australia,ca 加拿大Canada,ch 瑞士Switzerland,
.cn 中国China,de 德国Germany,Deutschland,dk 丹麦Denmark
,es 西班牙Spain,Espana,fr 法国France,gr 希腊Greece
,jp 日本Japan,nz 新西兰New Zealand,uk 英国United Kingdom
,my 马来西亚 Malaysia,sg 新加坡 Singapore
最高级域机构域名
.com 商业机构,edu 教育机构,gov 政府部门,int 国际性机构
,mil 军事部门,net 网络机构,org 上述以外的部门(非盈利机构)
1997年1月,IAHC宣布新增7个通用最高级域机构域名。
新增最高级域机构域名
,firm 商业组织或公司,store 提供货物供人购买的商业组织
,Web 强调其活动与Web有关的组织,arts 从事文化和娱乐活动的组织
,rec 从事娱乐和消遣活动的团体,info 提供信息服务的组织
,nom 为希望用独立单位或个人的命名
第三节 网络资源的综合利用
一、如何快速地在网上查找信息目前,使用WWW(环球信息网)进行检索的人日益增多,日趋完美的网页检索工具也层出不穷,每人都有各人自己的所喜欢使用的网页检索工具,每人的检索方式也大相径庭,这就象每人的生活方式不同一样,我们不可强求统一,但是,我们如果能从众多的检索工具中摸索出一些规律,我们就能提高检索质量、节省时间和精力。本文旨在根据笔者平时使用网上各种检索工具的经验,总结、归纳几种一般的检索策略,供同仁参考。
(1)要掌握网上检索工具类型我们应该知道所有的网上检索工具大致可以分为两种基本的类型:目录型,如Magellan和yahoo;检索型AltaVista,Excite,Infoseek,Lycos,OpenText以及WebCrawler。目录型的检索工具比较适合检索大量的网址目录,也就是在扩检时,我们可以使用目录型的检索工具;而如果我们要进行缩检,要具体到每一网址的内容,我们就应该选择检索型的检索工具。所谓检索型的检索工具是基于上百万个网址内容的文摘而建立起来的,有的有全文,有的则只有网页的标题和题目。如果我们想要知道网上有哪些可以进行检索的数据库,我们可以用http://www.isleuth.com这个网址,该网址给我们提供了上百万个可以进行检索的数据库,从标准的检索工具到新闻小组的检索、目录、主题等应有尽有。还有一个网址是http://www.wiredsource.com/wiredsouc,该网址也提供许多检索工具。
(2)要了解自己使用的检索工具我们掌握了一、两种检索工具的使用,并不能说明我们对其他检索工具的了解。在我们进入新的检索之前,我们应该花点时间了解如何使用这种检索工具。尤其要注意了解该系统所特有的检索方式,同时还应了解检索结果有几种表达方式,如我们可以选择按关键词的相关性来排列结果或按网页的更新时间或索引来排列检索结果。显然,前者的效果要优于后者。
(3)要熟悉了解所检索的主题我们要确切了解我们自己所想要查询的内容。如果我们键入的检索式不正确,有可能导致许多无用信息的产生。当然我们也可以边查边修改我们的检索策略,有时这也是我们的唯一选择,但是,如果我们相当了解我们自己学科的主题,熟悉常用的术语,那么,我们的检索进展就会要顺利得多。举例来说,我们想查找有关以太网方面的信息,这种信息网上太多,如果我们能知道再具体一点的信息,如我们要查的以太网是属于那种范畴(10Mbps和100Mbps)的以太网,这样,我们就能更有的放矢地进行检索。另外,还注意专有名词要大写。
(4)要明确网上的局限性我们知道所有网页检索工具就其检索所要求的查准率和查全率来说是不太高的,同时也不是一上网就可以查到有关学科方面的最新信息,这只是相对而言,有些检索工具还是能检索到一些较新的信息,但网上的信息一般也都滞后,因为检索工具一般也得花数月时间在网上搜寻新资料,而有些动态的网址就其本身性质来说就难以被编成索引。
(5)正确使用布尔逻辑组合式在网上所有一流的网址都容许使用布尔逻辑式,我们一般常用四种布尔逻辑运算符来进行检索:首先是“And”,如当我们在一个检索式中使用A AND B时,我们实际上是通知我们所选择的检索工具在我们所要查找的文献中既要有A也要有B。举例来说,我们要检索与Java有关的数据库,我们就应该这样输入检索式:Java AND database。我们要注意的是有些检索工具的缺省值就是使用AND(yahoo),但并非所有的检索工具都如此,如Lycos检索工具的缺省值就是“OR”,因此,我们在使用每一检索工具之前最好读一读相关的帮助信息,以进一步了解该检索工具的具体特性。在我们上网进行检索时,“OR”可能是用处最少的布尔逻辑运算符,因为它检索出来的信息太多,有许多网上服务器甚至不对带有这种逻辑运算符检索式的请求进行加工。还有些词如“计算机”,太多太泛,失去了检索的价值,我们称这种词为“禁用词”,网上每个检索服务器一般都有自己的禁用词表,如果我们在检索前对此有所了解,我们就有可能避免不必要的误检。另一个比较有效的逻辑运算符是“Not”,我们可以用Not来排除在检索中同名但不同义的词组。但是,我们要注意的是有些检索服务器,如Yahoo和Lycos,不能执行Not逻辑运算符,我们在检索时要考虑这些问题。
(6)注意收集具体的检索网址我们应该时常关注网上一些有用的、学术性强的检索网址,这些具体化的检索工具可以帮助我们进行较为精确地检索。如FindLaw(http://www.find.law.com),可以查找网上有关的法律资源。
二、Internet上的化工资源站点简介
Internet上有丰富的化工信息资源,有关的化工技术人员查询使用可获取大量的学术资料、科技成果。今将部分有名的站点介绍如下。
(一)专业站点
1化工“虚拟图书馆”(http://www.che.ufl.edu/www-CHE/outline.html)该网站由美国佛罗里达大学建立,主要为用户提供化工、生物、环境、给排水、能源等方面的技术资料,同时还提供有关标准、专利以及化学制品的价格、制造商和相关服务信息,用户还可免费订阅“化学品交易信息”。该网站连接了许多著名化工站点,通过它可进一步搜寻有关化工信息。
2化学“虚拟图书馆”(http://www.che.ufl.edu/chempointers.html)
3OCLC (http://www.oclc.org)
世界上最大的为读者提供文献信息服务的机构,通过它可方便地检索大量学术资源。
4环境信息(http://envirolink.org)
5美国化学工程师协会(http://www.che.ufl.edu/~aiche/)
介绍部分化工论文及该协会有关活动。
6美国化学学会(http://www.acs.org)
主要内容有美国化学文摘、教育、公共事物、出版物、计算机软件、会议等。
7DIALOG系统(http://www.dialog.com/)
提供相关领域的论文、新闻、统计等在线服务,以及全球100多种报纸及数千种杂志。
8美国化学学会化学文摘CA(http://info.cas.org/ONLINE/)
世界著名科技文摘,提供科技信息的在线检索服务,但需付费建立合法帐号方可使用。
(二)科技期刊
1国内科技期刊站点
(1)中国期刊网(http://www.chinajournal.net.cn)于1999年6月18日正式开通。网上汇集了6600种科技类、社科类期刊的题录、摘要。其中包括3500多个核心和专业特色期刊的现刊全文信息资源。我校由镜像站点。
(2)通过万方数据(http://www.chinainfo.gov.cn/periodical/)进行分类查询,并可免费登载。
2国外科技期刊站点
(1) EEVL(http://www.eevl.ac.uk/eese/)其中有大量外文科技期刊网址。
(2) Electronic Journals and Journal Information in Chemistry (http://www.lib.uchicago.edu/)则专门收集整理网上与化学化工有关的期刊杂志,可免费索取部分资料,也可提供部分文章的全文。
(三)标准
1中国标准服务网CSSN(http://www.cssn.net.cn)可提供所需标准的最新全文及标准信息动向。
2美国国家标准与技术研究院NIST(http://www.nist.gov)
(四)专利
1中国专利文摘数据库(http://www.beinet.net.cn/patent/)包含了中国专利局1985~1998年间公布的所有发明专利和实用型专利的申请。该数据库中的“失效专利文摘数据库”中约有21万件失效专利可供无偿使用。
2美国SPO专利服务(http://www.spo.eds.com)储存了美国专利与商标局1972年以来的专利约170万条。
3IBM专利数据库(http://www.patens.ibm.com)包含了美国专利局27年来的专利文献以及24年来的图像资料,可查找并下载超过200万份专利。
三、介绍因特网上的六个专利文献数据库众所周知,专利文献是重要的情报源。作为一类应用科学的文献,专利文献的内容可以说是应有尽有。从日常生活必需品到复杂的高精尖技术,从技术、工艺到设备,几乎无所不包。专利文献的数量十分庞大,传统的手工检索已满足不了人们的需求。计算机情报检索出现后,各种专利文献数据库成为人们利用专利文献的有效工具。但现有的商业专利数据库都有收费偏高、国内用户难以承受的问题,从而影响了对专利文献的充分利用。在为资源共享而产生和发展的因特网上,除了有免费的各大学行政、管理及图书馆书目信息外,近几年出现了越来越多的部分或全部免费的专业数据库,其中的专利文献数据库为我们免费或低价使用专利文献提供了机会。下面,就因特网上有关专利文献数据库的网址、检索方法、检索内容及付费标准等情况作一些介绍。
1IBM公司的免费专利文献数据库(http://patent.womplex.ibm.com)
IBM公司的专利服务器提供美国专利的免费检索,用户可以检索1971年以来的美国专利说明书的内容(专利书目信息和各专利权项),浏览1974年以来的专利文献中的附图。IBM专利数据库提供专利号检索、布尔逻辑文本检索和高级文本检索三种检索模式,并为每种检索模式设计了详细的帮助信息。在布尔逻辑文本检索中,界面提供输入两个检索词的对话框,用户可单击下拉式菜单选择检索字段和检索词之间的逻辑关系。供选择的检索字段有:发明者字段、代理人字段、文摘字段、专利权人字段等。高级文本检索为发明者、代理人、题目、文摘、专利权项等每个字段提供了一个输入检索词的对话框,用户可以在需要的对话框内填上检索词或短语(作为检索的短语要加双引号),每个对话框之间是逻辑“和”的关系。在一个对话框内可以用逻辑“或”表示词或短语之间的并列关系,用逻辑“非”表示词或短语之间的不共存关系。在检索年限上,用户可选择检索近3年的专利或检索1971年以来的专利文献。关于检索结果,系统一次显示50条记录的专利号和题目,单击屏幕上带下划线的专利号即可看到该专利的详细信息,包括书目信息、文摘和各专利权项等。单击“浏览图像”按钮可允许用户看到专利中的附图。用户可直接使用浏览器的打印功能打印看到专利的详细信息,并可将图像以GIF格式保存下来。用户还可用联机的订购服务获取专利的全文和附图,专利全文可以电子邮件、邮寄或传真等方式送给用户。
2美国专利和商标局的免费专利数据库(http://ww.uspto.gov)美国专利和商标局(USPTO)在因特网上提供了1976年至今的美国专利数据库,供用户免费查询专利扉页的内容,即用户可以检索到专利题目、文摘、专利所有者、专利号、申请国家、批准号等一切扉页所包括的内容。如果用户需要专利说明书,则要付3美金的费用。利用USPTO这个免费数据库的方法是:首先打开其首页,然后在首页中选“检索美国专利数据库”条目,在下一级网页中选“进入专利数据库”,等再下一级网页出现时,用户就可以键入检索词进行检索了。USPTO提供两种检索模式,分别是简单快捷的和高级的检索模式。它提供的联机帮助功能可引导用户顺利、轻松地学会使用这个数据库。此外,从USPTO的首页出发,用户还可以浏览“美国专利分类数据库”,找到关于专利分类的详细信息。
3奎斯特—奥比特公司(Questel-Orbit’s)的美国专利数据库(http://www.qpat.com)Questel-Orbit’s公司的QPAT-US专利数据库提供美国专利扉页的免费检索和收费的全文检索及浏览功能(年限从1974年至今),但目前不具备显示专利附图和化学结构式的功能。QPAT-US数据库的检索功能,在目前因特网上专利数据库中是较强的。它提供布尔逻辑检索、位置检索、截词检索、词组检索等检索方法。当用户需要浏览检索到的专利全文时,只需单击检索到的专利号,原文马上显示出来,其中检索词在原文中是加亮显示的。QPAT-US以月为单位收费,每月用户需要为第一个帐号和密码付195美元,附加的密码收费很少。付完月费后,用户可以尽情地检索、浏览、套录所需要的专利文献。
4美国化学文摘社的化学专利数据库(http://casweb.cas.org/chempatplus/)这个数据库的名称为“化学专利数据库”(Chemical Patent Plus),但它所提供的专利并不局限于化学,而包括专利文献的各个方面。它提供1974年至今美国专利文献全文检索,对检索结果的浏览和输出方式有多重选择。用户可免费检索、浏览专利题目和文摘。至于专利原文,则根据用户所看的内容的多少,付1.25~3.75美金不等。用户若要套录最近(1993年以来)专利的附图,则要付1.50美金。
5奈特瑞德公司(Knight-Ridder)的科学数据库(ScienceBase)(http://www.krscience.dialog.com)美国Knight-Ridder’s公司的KRScienceBase与因特网上其他专利数据库不同,它是扩充的菜单驱动检索系统的一部分。它提供两个著名的商业数据库的检索:一是“Derwent World Patent Index”(来自40个国家的国际专利);二是IFI/Plenum数据公司的CLAIMS数据库(美国专利)。该数据库的主题检索功能不很强,但用户可将主题和发明者结合起来进行检索。作为因特网上的一项服务,该数据库的收费是相当贵的。一个密码的费用为每月50美金,密码仅限于检索,每显示1条检索结果的文摘需付5美金。此外,若用户检索的是1974年以来的美国专利,可链接到全文数据库浏览专利全文,这需另付5美金/条。
6微专利公司(MicroPatent’s)的专利网页(http://www.micropat.com)
MicroPatent’s公司的专利网页提供1974年至今的美国专利、1992年以来的欧洲专利和1988年以来的世界专利。用户只能检索最近2周的美国专利和近4周的专利分类。要找其他的专利信息,用户必须知道专利号并联机向该公司订购。该公司通过电子邮件传递专利的文本信息,或邮寄、传真专利的全文,或套录美国专利的附图。
综上所述,用户可先选择一种免费提供专利扉页查询的数据库,查到所需要专利的专利号,再用PatentWeb的专利传递服务获取专利全文。
四、在IBM专利服务器上免费检索美国专利
1.数据库内容
1.1数据库容量
IBM专利服务器提供的美国专利数据库包括文本型书目数据库、专利说明书的图像数据库。书目数据库收录1974年1月至当前的全部美国专利,1971年至1973年的部分美国专利,最早的专利为1971年1月5日公布,共计收录专利230万条左右。为了检索方便,服务器将全部专利组织为两个库,1971年至当前为总库,1995年至当前为子库,子库共收录42万条专利。数据库的更新为即时更新,只要收到专利局的专利公报,新信息就及时加到数据库中。
1.2专利说明书图像
专利说明书是专利最完整、最原始的资料,特别是说明书的绘图包含最有价值的信息。现在,IBM公司将印刷型的专利说明书数字化,装进了专利服务器,这是该服务器独一无二的、也是最珍贵的资源。图像库收录1974年至当前大约200余万份说明书。图像的总存量为1.3Tera byte,相当于3000多张光盘的容量。每份说明书包括说明书首页、说明文字和绘图,从几页到几十页不等。系统提供浏览功能。
1.3专利字段
在IBM提供的美国专利数据库中,一条完整的专利包括下列字段:专利存取号、专利名称、发明人、专利权人、公开时间、申请时间、系列号、法律状态、国际专利分类号、美国专利分类号、专利说明书文摘、作为参考的美国专利、权项、相关专利、国外申请优先权数据、作为参考的外国专利、其它参考资料、专利代理人、主审官、副审官。 ’
1.4缺失或不完整专利
缺失专利是指一些专利说明书因难以得到,而没有装入服务器。不完整专利是指个别专利缺少了一些字段。整个数据库中,不完整专利只有两条,没有说明书图像的专利约有1.2万条,IBM承诺,缺夫和不完整专利一旦得到会立即装入。
2 检索性能
2.1检索方式
系统提供四种检索方式:
关键词检索:这是最简单的检索方式,只要在输入框中输入关键词或词组,系统在专利的所有字段中扫描,找到匹配记录,输出检索结果。
专利号检索,如果知道某个专利的存取号,选择这种检索方式,在输入框中输入专利号,就可迅速得结果。
布尔逻辑检索:这种检索方式一次可输入两个词,每个词的输入框下有一个弹出菜单,供选择检索词应出现的字段,字段选项有全部字段、专利名称、发明人、专利权人、文摘、权项、代理人共7种。两词之间有一个弹出菜单,可选择逻辑运算符号and、or、not。
高级检索:这种检索方式适合于情报检索人员,检索者可在输入框中编辑复杂的检索策略。策略中词与词之间可以进行逻辑运算、截断、相临运算、单词修正运算。在逻辑运算符号中新增了“accrue”算符,这个算符和or算符相似,但它可以统计检索词在某一文献中的词频,计算两词之间距离的大小,最后得出这篇文献与检索词的相关度,检索结果就能以相关度的高低更精确地排序。
2.2显示检索结果
系统执行检索过程后,将匹配的记录输入到屏幕上。每条记录包括三项信息:专利号、专利名称、相关度。系统采用了Internet上流行的相关度排序法,将检中的专利按相关度高低排序。一次显示的记录数最多200条,检索界面上有一个弹出菜单,可设置记录显示的条数,有20、50、100和200四个选顶。如果要显示某个专利的全记录,点击该专利存取号。如果要订购某一个专利,在专利存取号前的方框中标记,然后点击页面下端的“Order Checked Documents”按钮。
2.3显示专利全记录
系统一次显示一条全记录。全记录格式除显示专利的所有字段外,还提供强大的链接功能。
专利分类号链接:专利的国际专利分类号和美国专利分类号均为链接点,点击分类号,系统按分类号自动检索,并显示检索结果。
参考专利链接:参考专利是审查官在评审专利创新点时,在已有的美国专利中查到的相关专利,这些专利的名录是专利说明书的内容之一,IBM专利服务器将参考专利名称作为链接点,点击专利名称,系统显示参考专利的全记录,注意,这种链接是双向的,以当前专利为参考的新专利也是一个链接点。全记录格式只显示专利权项的第一项,如果要看整个权项的文本,点击“show a11claims”链接点。
2.4浏览说明书图像
在专利全记录页面的顶部,点击“View images”按钮,可浏览这个专利的说明书图像。使用浏览器“文件”菜单中的打印功能,可直接输出说明书。从图像页面退回到全记录显示页面,不能用浏览器的“back”按钮,而要关闭或缩小当前的窗口。
3.其它辅助服务
3.1专利说明书订购
3.2资源导航
3.3珍稀专利子数据库
为了提高本站点的趣味性,IBM专利服务器开发了一个功能,当你遇到一个很有意思的专利时,你可以击专利页顶部的Vote按钮,把这个专利推荐给珍稀专利子数据库,千千万万的访问者和你共同推荐、共同欣赏。浏览一下这个小数据库,你会发现人类曾发明过些什么稀奇的东西。
在计算机检索系统中,数据库是一种经过编辑组织以机读形式出现的记录集合。不同的数据库,其结构也不相同,所提供的检索途径也有差别,但无论什么类型的数据库其基本结构具有共同的特征:
1.字段、记录、文档
字段是文献著录的基本单元,反映文献外部特征和内容特征的每一个项目,在数据库中就称为字段,在数据库中每一个字段,往往都给予一个字段名。如Title,字段名为TI;Author,为AU;SO为文献来源,AB是文摘字段,PY为出版年份,SN为国际标准书号ISSN,DE为叙词或主题词,CS为著者单位。在某些数据库的检索中,在上机检索前必须了解数据库的字段名。
记录是由若干不同字段组成的文献单元,一个记录在数据库中往往代表一篇文献,在数据库中每一个记录都有一个记录号,与检索工具中的文摘号类似。
文档,由若干数量的记录所构成的数据集合,在一些大型联机检索系统中称作文档。如DIALOG系统中399号文档是美国化学文摘(CA),211号文档是世界专利索引(WPI)。
2.顺排挡、倒排挡
以固定的字段顺序,按文献输入先后排列的文档,称为顺排挡。顺排挡是文献数据库的基本单位,相当于手工检索工具的文摘正文部分,全面记录着文献的各个特征,但要在顺排挡中检索文献,检索速度相当慢。
将顺排挡中某些文献特征的字段抽取出来,再按一定的规律排列而形成的文档,称为倒排挡。倒排挡相当于手工检索工具中的索引部分,因而往往也称作索引。倒排挡大大加快了数据库的检索速度,在数据库的编制中,建立倒排挡的字段越多,相应的检索途径越丰富,检索效率就越高。
3.基本索引、辅助索引(Basic Index,Additional Index)
Basic Index,是由数据库中的某些字段的倒排挡组成,这些字段通常是能够以主题概念检索的字段,如主题词(DE)字段、关键词(ID)字段、篇名(TI)字段等。不同的数据库基本索引的字段有所差别,因而在检索前要先了解该数据库的Basic Index包含哪些字段。如DIALOG系统的Ei数据库的基本索引包括TI,DE,ID,AB四个字段,而WPI数据库只包含ID一个字段。
Additional Index,除Basic Index包含的字段外,其他建立倒排挡的字段都是辅助索引。在检索中,基本索引的检索与辅助索引的检索有所不同,基本索引检索不用加字段名,而辅助索引的检索需加字段名,如要检索ARAI写的文章,检索式应为AU=ARAI。
二、国际联机检索系统(On-Line Retrieval)
联机检索,是指用户通过终端和通信线路,从信息检索系统存储的文献数据库中检索自己所需的信息。国际联机检索系统是以大型计算机为核心,大容量存贮设备为基础,以公共数据交换网或电话通讯线路为传输媒介建立起来的大型计算机情报检索系统。只要通讯线路能延伸到的地方都能进行异地远程通讯检索。
1.DIALOG系统
DIALOG系统是国际上最著名、规模最大的联机检索系统。目前该系统拥有三台大型计算机,总存贮量共达十八万兆,与两个卫星通信网络相连,在全世界80多个国家和地区有10多万个终端用户,系统每天24小时为用户提供联机检索服务。目前该系统建有400多个文档,文献存储量达2亿多个记录,文档的专业范围遍及科学技术、政治经济、商业、新闻等。DIALOG公司还将数据库文档制作成各专业的数据库光盘,单独出版。
2.ORBIT系统
ORBIT系统是目前世界上仅次于DIALOG系统的国际联机检索系统,是始建于60年代的国际著名联机检索系统。文献存储量达1亿条记录,200多个文档。
3.BDS系统
BDS系统是我国最大的联机检索系统,属北京文献服务处。该系统文献存储量达1千余万条,该系统的数据库主要是专利文献和美国政府报告。该系统在全国各地拥有数百个终端用户,由于国内的联机检索费用较低,因而利用率要高于国际联机检索。但国内联机检索数据量太少无法满足各专业的用户需求。
三、光盘检索网络
光盘是一种存储量大,价格低廉的计算机存储设备,是采用激光、计算机、数字通讯和光电集成等现代高科技成果的结晶。目前CD-ROM(Compact Disk Read Only Memory)只读式光盘在图书馆中广泛应用,每张光盘的信息存储量达650兆,相当于3亿多汉字。普通软盘的1600倍,缩微平片的1200倍,相当于30万页A4型纸的信息量。存取速度快,仅用0.5秒就可以从1张存有几万页资料的文献中检索出需要的一页。
1.光盘检索系统的基本原理
光盘检索系统由光盘、CD-ROM驱动器、计算机并配以相应的驱动软件和检索软件构成。
2.光盘检索网络系统
单机的光盘检索系统随着光盘数据库的大量涌现,检索时需频繁换盘,给用户带来不便。并且同时只能有一个读者使用而无法充分发挥昂贵的光盘数据库的效益。在计算机网络技术的基础上开发了光盘检索网络的硬件和软件,形成了光盘检索网络系统。目前建成的光盘检索网络系统有多种模式,共同的特点是拥有能同时运行几十张光盘的光盘塔驱动器,有可供上百个用户同时检索同一张或不同光盘的光盘网络软件。由于光盘网络检索系统不用换盘,可多用户共享数据库,充分发挥了光盘的作用,在国内外高校图书馆中得以迅速的发展。
四、布尔逻辑运算
在计算机检索中,逻辑运算是常用的方法。用逻辑运算的方法反映检索词之间的关系,能达到提高检索效果的目的。常用的逻辑运算有三种:逻辑与、逻辑或、逻辑非。
逻辑与:机检的输入符号为“*”或“AND”,是反映概念之间交叉和限定的一种组配。A*B,表示数据库中既含有A概念又含有B概念的文献才被命中。用逻辑与可以逐步缩小文献的检索范围,提高文献命中的准确性。
如:乙烯的水合反应 A:ethylene A*B (交集)
B:hydration A AND B
逻辑或:机检的输入符号为“+”或“OR”,是反映概念之间并列关系的一种组配。A+B,表示在数据库中只要含有A概念或B概念的文献都可命中。用逻辑或可以扩大文献的检索范围,防止漏检,以提高文献的检全率。
如:石油和天然气 A:petroleum A+B (并集)
A B B:natural gas A OR B
逻辑非:机检的输入符号为“-”或“NOT”,A-B,表示在数据库中,在命中含有A概念的文献集合里,去除同时含有B概念的文献。逻辑非也是一种缩小检索范围的概念组配方法,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用,在联机检索中以降低检索费用。
如:石油炼制催化剂以外的催化剂 A:catalyst A-B
A B B:petroleum refining A NOT B
逻辑运算符是计算机检索过程中广泛采用的一种方法,在各检索词之间合理地、综合运用逻辑运算是提高文献命中准确性和文献的查全率的基本方法,其运算次序为:“NOT”“AND”“OR”,括号中先运算。
练习:
沸石分子筛的吸附 A*B
A:zeolites B,adsorption
顺丁烯二酸酐的制备 A*(B+C)
A,2,5-furandionc B,prepn,C,manuf.
石油和天然气的脱硫 (A+B)*C
A:petroleum B,natural gas C,desulfurization
润滑酯的生产工艺和设备 A*B*C* (D+E)
A,IPC C10M05 B,lubricant C,grease D,technology E,equipment
红外光谱与质谱在石油分析中的应用 (A+B) * (C*D)
A,IR B,MS C,petroleum D,analysis
第二节 因特网的使用一,Internet 的概况
1969 年代末美国国防部出资兴办ARPAnet (Advanced Research Projects Agency Network-高级研究计划局)项目。当时开通时只有4个点。
1970年诞生了用于网络互连的标准、通用的网络协议TCP/IP(Transfer Control Protocol/ Internet Protocol) 协议。
1987 年,NSF(National Science Foundation美国国家科学基金会)选择了IBM(计算机制造商)、MCI(长途电话公司)、Merit(密执安州一个区域性网络服务公司)提出的一个联合方案,合作建立新的广域网。MCI 提供长途传输线路;IBM 提供专用的计算机和软件;Merit 管理这一网络。1988 年 NSFnet 取代了 ARPAnet 而成为 Internet 的骨干网。1990 年 ARPAnet 停止运行。
1992年IBM、MCI 和 Merit 组建了ANS(Advanced network and Services高级网络和服务公司)。ANSnet的传输速率是 NSFnet 骨干网的 30 倍,达到45Mbps。
Internet 的发展经历了3个阶段。研究网、运行网、商业网。
到1998年3月,全世界Internet 用户人数已达1.1亿。预计到2000年,Internet 上将有100万个网络,1亿台计算机和10亿个用户。
二,Internet 在我国的发展情况
我国的Internet 发展大致经历了3个阶段。
第一阶段是从1987年到1994年。中科院高能物理所是我国首家连入Internet 的单位。第一批Internet 使用者是全国1000多名科学家。
第二阶段是从1994年到1995年的教育科研网发展阶段。中关村地区教育与科研示范网络NCFC(National Computer & Networking Facility of China即国家计算机与网络设施工程,简称中关村网),1994年3月开通了速率为64Kbps的Internet国际出口专线,中国网络域名也最终确定为cn,这标志着我国正式加入Internet。
第三阶段是从1995年开始的商业应用阶段。1995年5月,邮电部开通了我国公用Internet 网Chinanet。1996年9月,电子工业部ChinaGBN又开通。
四大互联网络
目前我国已建成了四大互连网络:CSTnet中国科学技术网、CERnet中国教育与科研网、Chinanet中国公用Internet 网、ChinaGBN中国金桥信息网,有6个Internet国际出口:中科院高能所、中科院网络中心、清华大学(10M)、北京化工大学、邮电部(北京、上海)、电子部吉通公司。
三,Internet 的服务与工具
Internet服务根据形式可以分成3大类:工具类、讨论类、信息查询类。
工具类服务包括:Telnet、E-mail、FTP、Archie等。
讨论类服务包括:News、BBS、IRC(在线聊天系统)等。
信息查询服务包括:Gopher、Wais(广域信息服务系统)、WWW等。
此外还有网络会议、网络游戏、网络广播、网上教学等。
四,TCP/IP协议简述
ARPAnet 最初设计因特网的目的是用以支持军队的一项研究,即:设计建立一个网,当它的一部分被迫停止运行时(例如遭核弹袭击),此网仍能完成工作。Internet 是建在把全世界的网络集合起来的基础上的。在这些网络上可能连接许多不同类型的计算机,因此,必须有个共同的东西通过某种方式把它们都连在一起,这个东西就是TCP/IP 协议。
TCP/IP是上百个(用来连接计算机和网络的)协议合起来的共有名字。TCP/IP的实际名字是来自最重要的两个协议,TCP(Transfer Control Protocol传输控制协议)和IP(Internet Protocol互连网协议)。
在Internet内部,信息不是一个恒定的数据流从一台计算机传送到另一台计算机,而是把数据分解成小包,即数据包。例如,当你传送一个很长的信息给远方的朋友时,TCP就把这个信息分成很多个数据包,每一个数据包用一序号和一接收地址来标定。此外,为了使接受方知道数据在传输过程中是否出错,TCP还插入一些校验信息。
接着数据包被传过网络,这就是IP的工作,即把它们传送给远程主机。在Internet 上每台主机都有一个特定的地址(称为IP地址)。IP的任务就是根据地址,在两台计算机之间寻找一条适当的路由。
在接受端的主机上,TCP接收到数据包并检查错误。如果有错误发生,TCP可以要求重发这个特定的数据包。当全部数据包都被正确地收到,TCP再根据序号重新组合成原来的信息。
简言之,IP的工作是把原始数据从一地传送到另一地;TCP管理这种流动并确保其数据正确。
TCP/IP通讯协议有下面三种基本应用:
远程登录Remote Login(命令:Telnet)
顾名思义,就是本地计算机通过网络,连到远端的另一台计算机上去,使用它的资源,这个过程就叫远程登录。
远程登录服务的使用,使计算机资源可以得到充分的利用。例如,个人计算机往往缺乏强大的计算能力,不能进行复杂精确的科学计算,而若知道网上某大型计算机系统正好提供这种服务,用户只需申请一个帐户,就可以登录到大型计算机系统上共享资源,根本不受地域的限制。
远程登录的使用方法:TELNET+远端主机域名(或IP地址)
如:telnet mail.hdpu.edu.cn 可以连到学校的邮件服务器,修改自己的邮件参数;telnet 202.194.145.66 可以连到学校主机。
文件传输File Transfer Protocol(FTP)
文件传输协议是双向的,用户既可以从远程系统获取文件的一份拷贝,也可将本地文件的一个副本传送到远程计算机上。现在好多同学喜欢做个主页,但首先要申请个个人主页空间存放自己的主页,咱们系就提供这种服务。你要想把文件传到服务器,就可以使用FTP,也可以从服务器下载文件,很是方便。
简单邮件Simple Message(Mail) Transfer Protocol(SMTP)
因特网的另一个典型应用就是电子邮件(Electronic Mail,简称E-mail),电子邮件又称电子信箱、电子邮政,它是一种新型的信息系统,是通讯技术和计算机技术结合的产物。目前电子邮件的发送和接收使用两个协议:
SMTP用于邮件的传输,
POP(Post Office Protocol)邮局协议,用于邮件的接收。现在使用POP3协议
五,Internet 上的地址和域名
Internet上的每台计算机和每个用户都有一个地址,能唯一确定每台计算机的位置、区分每个不同用户。通常看到的地址是一组词语或有隐含意义的字母或数字,它们均按标准格式用“.”隔开,这种地址的编排称为域名系统(DNS-Domain Name System)编址。地址可以写成两种形式:
1,IP地址格式
每个IP地址都由4个字节组成,每个字节相当于一个8位位组,每个8位位组的二进制数可以表示成0~255之间的十进制数。有的同学可能要问,为什么要到255呢,大了不行吗?这是因为:二进制的8位数最大就是11111111,而这8个1代表的十进制数就是255。数字之间用点隔开。例如:“202.194.145.66”就表示某台计算机的IP地址。
目前Internet上采用的IPv4协议,其32位长度的地址已经不能满足需求,地址资源存在枯竭的可能。以后网络将采用新的IPv6协议,IPv6协议使用128位长度的地址,是IPv4协议地址长度的4倍,从而大大扩大了寻址空间,使全球任一台计算机都可以分配到一个全世界通用的IP地址。
2,域名格式
例如“www.hdpu.edu.cn”表示中国(cn)教育部门(edu)石油大学(hdpu)的一台www服务器。
“用户名@域名.高层域名”,例如“name @hdpu.edu.cn”表示中国教育部门石油大学用户“name”,而他拥有帐号的那台计算机的域名是“hdpu.edu.cn”。
域名和IP地址是一一对应的。
部分最高级域地区域名
.au 澳大地亚Australia,ca 加拿大Canada,ch 瑞士Switzerland,
.cn 中国China,de 德国Germany,Deutschland,dk 丹麦Denmark
,es 西班牙Spain,Espana,fr 法国France,gr 希腊Greece
,jp 日本Japan,nz 新西兰New Zealand,uk 英国United Kingdom
,my 马来西亚 Malaysia,sg 新加坡 Singapore
最高级域机构域名
.com 商业机构,edu 教育机构,gov 政府部门,int 国际性机构
,mil 军事部门,net 网络机构,org 上述以外的部门(非盈利机构)
1997年1月,IAHC宣布新增7个通用最高级域机构域名。
新增最高级域机构域名
,firm 商业组织或公司,store 提供货物供人购买的商业组织
,Web 强调其活动与Web有关的组织,arts 从事文化和娱乐活动的组织
,rec 从事娱乐和消遣活动的团体,info 提供信息服务的组织
,nom 为希望用独立单位或个人的命名
第三节 网络资源的综合利用
一、如何快速地在网上查找信息目前,使用WWW(环球信息网)进行检索的人日益增多,日趋完美的网页检索工具也层出不穷,每人都有各人自己的所喜欢使用的网页检索工具,每人的检索方式也大相径庭,这就象每人的生活方式不同一样,我们不可强求统一,但是,我们如果能从众多的检索工具中摸索出一些规律,我们就能提高检索质量、节省时间和精力。本文旨在根据笔者平时使用网上各种检索工具的经验,总结、归纳几种一般的检索策略,供同仁参考。
(1)要掌握网上检索工具类型我们应该知道所有的网上检索工具大致可以分为两种基本的类型:目录型,如Magellan和yahoo;检索型AltaVista,Excite,Infoseek,Lycos,OpenText以及WebCrawler。目录型的检索工具比较适合检索大量的网址目录,也就是在扩检时,我们可以使用目录型的检索工具;而如果我们要进行缩检,要具体到每一网址的内容,我们就应该选择检索型的检索工具。所谓检索型的检索工具是基于上百万个网址内容的文摘而建立起来的,有的有全文,有的则只有网页的标题和题目。如果我们想要知道网上有哪些可以进行检索的数据库,我们可以用http://www.isleuth.com这个网址,该网址给我们提供了上百万个可以进行检索的数据库,从标准的检索工具到新闻小组的检索、目录、主题等应有尽有。还有一个网址是http://www.wiredsource.com/wiredsouc,该网址也提供许多检索工具。
(2)要了解自己使用的检索工具我们掌握了一、两种检索工具的使用,并不能说明我们对其他检索工具的了解。在我们进入新的检索之前,我们应该花点时间了解如何使用这种检索工具。尤其要注意了解该系统所特有的检索方式,同时还应了解检索结果有几种表达方式,如我们可以选择按关键词的相关性来排列结果或按网页的更新时间或索引来排列检索结果。显然,前者的效果要优于后者。
(3)要熟悉了解所检索的主题我们要确切了解我们自己所想要查询的内容。如果我们键入的检索式不正确,有可能导致许多无用信息的产生。当然我们也可以边查边修改我们的检索策略,有时这也是我们的唯一选择,但是,如果我们相当了解我们自己学科的主题,熟悉常用的术语,那么,我们的检索进展就会要顺利得多。举例来说,我们想查找有关以太网方面的信息,这种信息网上太多,如果我们能知道再具体一点的信息,如我们要查的以太网是属于那种范畴(10Mbps和100Mbps)的以太网,这样,我们就能更有的放矢地进行检索。另外,还注意专有名词要大写。
(4)要明确网上的局限性我们知道所有网页检索工具就其检索所要求的查准率和查全率来说是不太高的,同时也不是一上网就可以查到有关学科方面的最新信息,这只是相对而言,有些检索工具还是能检索到一些较新的信息,但网上的信息一般也都滞后,因为检索工具一般也得花数月时间在网上搜寻新资料,而有些动态的网址就其本身性质来说就难以被编成索引。
(5)正确使用布尔逻辑组合式在网上所有一流的网址都容许使用布尔逻辑式,我们一般常用四种布尔逻辑运算符来进行检索:首先是“And”,如当我们在一个检索式中使用A AND B时,我们实际上是通知我们所选择的检索工具在我们所要查找的文献中既要有A也要有B。举例来说,我们要检索与Java有关的数据库,我们就应该这样输入检索式:Java AND database。我们要注意的是有些检索工具的缺省值就是使用AND(yahoo),但并非所有的检索工具都如此,如Lycos检索工具的缺省值就是“OR”,因此,我们在使用每一检索工具之前最好读一读相关的帮助信息,以进一步了解该检索工具的具体特性。在我们上网进行检索时,“OR”可能是用处最少的布尔逻辑运算符,因为它检索出来的信息太多,有许多网上服务器甚至不对带有这种逻辑运算符检索式的请求进行加工。还有些词如“计算机”,太多太泛,失去了检索的价值,我们称这种词为“禁用词”,网上每个检索服务器一般都有自己的禁用词表,如果我们在检索前对此有所了解,我们就有可能避免不必要的误检。另一个比较有效的逻辑运算符是“Not”,我们可以用Not来排除在检索中同名但不同义的词组。但是,我们要注意的是有些检索服务器,如Yahoo和Lycos,不能执行Not逻辑运算符,我们在检索时要考虑这些问题。
(6)注意收集具体的检索网址我们应该时常关注网上一些有用的、学术性强的检索网址,这些具体化的检索工具可以帮助我们进行较为精确地检索。如FindLaw(http://www.find.law.com),可以查找网上有关的法律资源。
二、Internet上的化工资源站点简介
Internet上有丰富的化工信息资源,有关的化工技术人员查询使用可获取大量的学术资料、科技成果。今将部分有名的站点介绍如下。
(一)专业站点
1化工“虚拟图书馆”(http://www.che.ufl.edu/www-CHE/outline.html)该网站由美国佛罗里达大学建立,主要为用户提供化工、生物、环境、给排水、能源等方面的技术资料,同时还提供有关标准、专利以及化学制品的价格、制造商和相关服务信息,用户还可免费订阅“化学品交易信息”。该网站连接了许多著名化工站点,通过它可进一步搜寻有关化工信息。
2化学“虚拟图书馆”(http://www.che.ufl.edu/chempointers.html)
3OCLC (http://www.oclc.org)
世界上最大的为读者提供文献信息服务的机构,通过它可方便地检索大量学术资源。
4环境信息(http://envirolink.org)
5美国化学工程师协会(http://www.che.ufl.edu/~aiche/)
介绍部分化工论文及该协会有关活动。
6美国化学学会(http://www.acs.org)
主要内容有美国化学文摘、教育、公共事物、出版物、计算机软件、会议等。
7DIALOG系统(http://www.dialog.com/)
提供相关领域的论文、新闻、统计等在线服务,以及全球100多种报纸及数千种杂志。
8美国化学学会化学文摘CA(http://info.cas.org/ONLINE/)
世界著名科技文摘,提供科技信息的在线检索服务,但需付费建立合法帐号方可使用。
(二)科技期刊
1国内科技期刊站点
(1)中国期刊网(http://www.chinajournal.net.cn)于1999年6月18日正式开通。网上汇集了6600种科技类、社科类期刊的题录、摘要。其中包括3500多个核心和专业特色期刊的现刊全文信息资源。我校由镜像站点。
(2)通过万方数据(http://www.chinainfo.gov.cn/periodical/)进行分类查询,并可免费登载。
2国外科技期刊站点
(1) EEVL(http://www.eevl.ac.uk/eese/)其中有大量外文科技期刊网址。
(2) Electronic Journals and Journal Information in Chemistry (http://www.lib.uchicago.edu/)则专门收集整理网上与化学化工有关的期刊杂志,可免费索取部分资料,也可提供部分文章的全文。
(三)标准
1中国标准服务网CSSN(http://www.cssn.net.cn)可提供所需标准的最新全文及标准信息动向。
2美国国家标准与技术研究院NIST(http://www.nist.gov)
(四)专利
1中国专利文摘数据库(http://www.beinet.net.cn/patent/)包含了中国专利局1985~1998年间公布的所有发明专利和实用型专利的申请。该数据库中的“失效专利文摘数据库”中约有21万件失效专利可供无偿使用。
2美国SPO专利服务(http://www.spo.eds.com)储存了美国专利与商标局1972年以来的专利约170万条。
3IBM专利数据库(http://www.patens.ibm.com)包含了美国专利局27年来的专利文献以及24年来的图像资料,可查找并下载超过200万份专利。
三、介绍因特网上的六个专利文献数据库众所周知,专利文献是重要的情报源。作为一类应用科学的文献,专利文献的内容可以说是应有尽有。从日常生活必需品到复杂的高精尖技术,从技术、工艺到设备,几乎无所不包。专利文献的数量十分庞大,传统的手工检索已满足不了人们的需求。计算机情报检索出现后,各种专利文献数据库成为人们利用专利文献的有效工具。但现有的商业专利数据库都有收费偏高、国内用户难以承受的问题,从而影响了对专利文献的充分利用。在为资源共享而产生和发展的因特网上,除了有免费的各大学行政、管理及图书馆书目信息外,近几年出现了越来越多的部分或全部免费的专业数据库,其中的专利文献数据库为我们免费或低价使用专利文献提供了机会。下面,就因特网上有关专利文献数据库的网址、检索方法、检索内容及付费标准等情况作一些介绍。
1IBM公司的免费专利文献数据库(http://patent.womplex.ibm.com)
IBM公司的专利服务器提供美国专利的免费检索,用户可以检索1971年以来的美国专利说明书的内容(专利书目信息和各专利权项),浏览1974年以来的专利文献中的附图。IBM专利数据库提供专利号检索、布尔逻辑文本检索和高级文本检索三种检索模式,并为每种检索模式设计了详细的帮助信息。在布尔逻辑文本检索中,界面提供输入两个检索词的对话框,用户可单击下拉式菜单选择检索字段和检索词之间的逻辑关系。供选择的检索字段有:发明者字段、代理人字段、文摘字段、专利权人字段等。高级文本检索为发明者、代理人、题目、文摘、专利权项等每个字段提供了一个输入检索词的对话框,用户可以在需要的对话框内填上检索词或短语(作为检索的短语要加双引号),每个对话框之间是逻辑“和”的关系。在一个对话框内可以用逻辑“或”表示词或短语之间的并列关系,用逻辑“非”表示词或短语之间的不共存关系。在检索年限上,用户可选择检索近3年的专利或检索1971年以来的专利文献。关于检索结果,系统一次显示50条记录的专利号和题目,单击屏幕上带下划线的专利号即可看到该专利的详细信息,包括书目信息、文摘和各专利权项等。单击“浏览图像”按钮可允许用户看到专利中的附图。用户可直接使用浏览器的打印功能打印看到专利的详细信息,并可将图像以GIF格式保存下来。用户还可用联机的订购服务获取专利的全文和附图,专利全文可以电子邮件、邮寄或传真等方式送给用户。
2美国专利和商标局的免费专利数据库(http://ww.uspto.gov)美国专利和商标局(USPTO)在因特网上提供了1976年至今的美国专利数据库,供用户免费查询专利扉页的内容,即用户可以检索到专利题目、文摘、专利所有者、专利号、申请国家、批准号等一切扉页所包括的内容。如果用户需要专利说明书,则要付3美金的费用。利用USPTO这个免费数据库的方法是:首先打开其首页,然后在首页中选“检索美国专利数据库”条目,在下一级网页中选“进入专利数据库”,等再下一级网页出现时,用户就可以键入检索词进行检索了。USPTO提供两种检索模式,分别是简单快捷的和高级的检索模式。它提供的联机帮助功能可引导用户顺利、轻松地学会使用这个数据库。此外,从USPTO的首页出发,用户还可以浏览“美国专利分类数据库”,找到关于专利分类的详细信息。
3奎斯特—奥比特公司(Questel-Orbit’s)的美国专利数据库(http://www.qpat.com)Questel-Orbit’s公司的QPAT-US专利数据库提供美国专利扉页的免费检索和收费的全文检索及浏览功能(年限从1974年至今),但目前不具备显示专利附图和化学结构式的功能。QPAT-US数据库的检索功能,在目前因特网上专利数据库中是较强的。它提供布尔逻辑检索、位置检索、截词检索、词组检索等检索方法。当用户需要浏览检索到的专利全文时,只需单击检索到的专利号,原文马上显示出来,其中检索词在原文中是加亮显示的。QPAT-US以月为单位收费,每月用户需要为第一个帐号和密码付195美元,附加的密码收费很少。付完月费后,用户可以尽情地检索、浏览、套录所需要的专利文献。
4美国化学文摘社的化学专利数据库(http://casweb.cas.org/chempatplus/)这个数据库的名称为“化学专利数据库”(Chemical Patent Plus),但它所提供的专利并不局限于化学,而包括专利文献的各个方面。它提供1974年至今美国专利文献全文检索,对检索结果的浏览和输出方式有多重选择。用户可免费检索、浏览专利题目和文摘。至于专利原文,则根据用户所看的内容的多少,付1.25~3.75美金不等。用户若要套录最近(1993年以来)专利的附图,则要付1.50美金。
5奈特瑞德公司(Knight-Ridder)的科学数据库(ScienceBase)(http://www.krscience.dialog.com)美国Knight-Ridder’s公司的KRScienceBase与因特网上其他专利数据库不同,它是扩充的菜单驱动检索系统的一部分。它提供两个著名的商业数据库的检索:一是“Derwent World Patent Index”(来自40个国家的国际专利);二是IFI/Plenum数据公司的CLAIMS数据库(美国专利)。该数据库的主题检索功能不很强,但用户可将主题和发明者结合起来进行检索。作为因特网上的一项服务,该数据库的收费是相当贵的。一个密码的费用为每月50美金,密码仅限于检索,每显示1条检索结果的文摘需付5美金。此外,若用户检索的是1974年以来的美国专利,可链接到全文数据库浏览专利全文,这需另付5美金/条。
6微专利公司(MicroPatent’s)的专利网页(http://www.micropat.com)
MicroPatent’s公司的专利网页提供1974年至今的美国专利、1992年以来的欧洲专利和1988年以来的世界专利。用户只能检索最近2周的美国专利和近4周的专利分类。要找其他的专利信息,用户必须知道专利号并联机向该公司订购。该公司通过电子邮件传递专利的文本信息,或邮寄、传真专利的全文,或套录美国专利的附图。
综上所述,用户可先选择一种免费提供专利扉页查询的数据库,查到所需要专利的专利号,再用PatentWeb的专利传递服务获取专利全文。
四、在IBM专利服务器上免费检索美国专利
1.数据库内容
1.1数据库容量
IBM专利服务器提供的美国专利数据库包括文本型书目数据库、专利说明书的图像数据库。书目数据库收录1974年1月至当前的全部美国专利,1971年至1973年的部分美国专利,最早的专利为1971年1月5日公布,共计收录专利230万条左右。为了检索方便,服务器将全部专利组织为两个库,1971年至当前为总库,1995年至当前为子库,子库共收录42万条专利。数据库的更新为即时更新,只要收到专利局的专利公报,新信息就及时加到数据库中。
1.2专利说明书图像
专利说明书是专利最完整、最原始的资料,特别是说明书的绘图包含最有价值的信息。现在,IBM公司将印刷型的专利说明书数字化,装进了专利服务器,这是该服务器独一无二的、也是最珍贵的资源。图像库收录1974年至当前大约200余万份说明书。图像的总存量为1.3Tera byte,相当于3000多张光盘的容量。每份说明书包括说明书首页、说明文字和绘图,从几页到几十页不等。系统提供浏览功能。
1.3专利字段
在IBM提供的美国专利数据库中,一条完整的专利包括下列字段:专利存取号、专利名称、发明人、专利权人、公开时间、申请时间、系列号、法律状态、国际专利分类号、美国专利分类号、专利说明书文摘、作为参考的美国专利、权项、相关专利、国外申请优先权数据、作为参考的外国专利、其它参考资料、专利代理人、主审官、副审官。 ’
1.4缺失或不完整专利
缺失专利是指一些专利说明书因难以得到,而没有装入服务器。不完整专利是指个别专利缺少了一些字段。整个数据库中,不完整专利只有两条,没有说明书图像的专利约有1.2万条,IBM承诺,缺夫和不完整专利一旦得到会立即装入。
2 检索性能
2.1检索方式
系统提供四种检索方式:
关键词检索:这是最简单的检索方式,只要在输入框中输入关键词或词组,系统在专利的所有字段中扫描,找到匹配记录,输出检索结果。
专利号检索,如果知道某个专利的存取号,选择这种检索方式,在输入框中输入专利号,就可迅速得结果。
布尔逻辑检索:这种检索方式一次可输入两个词,每个词的输入框下有一个弹出菜单,供选择检索词应出现的字段,字段选项有全部字段、专利名称、发明人、专利权人、文摘、权项、代理人共7种。两词之间有一个弹出菜单,可选择逻辑运算符号and、or、not。
高级检索:这种检索方式适合于情报检索人员,检索者可在输入框中编辑复杂的检索策略。策略中词与词之间可以进行逻辑运算、截断、相临运算、单词修正运算。在逻辑运算符号中新增了“accrue”算符,这个算符和or算符相似,但它可以统计检索词在某一文献中的词频,计算两词之间距离的大小,最后得出这篇文献与检索词的相关度,检索结果就能以相关度的高低更精确地排序。
2.2显示检索结果
系统执行检索过程后,将匹配的记录输入到屏幕上。每条记录包括三项信息:专利号、专利名称、相关度。系统采用了Internet上流行的相关度排序法,将检中的专利按相关度高低排序。一次显示的记录数最多200条,检索界面上有一个弹出菜单,可设置记录显示的条数,有20、50、100和200四个选顶。如果要显示某个专利的全记录,点击该专利存取号。如果要订购某一个专利,在专利存取号前的方框中标记,然后点击页面下端的“Order Checked Documents”按钮。
2.3显示专利全记录
系统一次显示一条全记录。全记录格式除显示专利的所有字段外,还提供强大的链接功能。
专利分类号链接:专利的国际专利分类号和美国专利分类号均为链接点,点击分类号,系统按分类号自动检索,并显示检索结果。
参考专利链接:参考专利是审查官在评审专利创新点时,在已有的美国专利中查到的相关专利,这些专利的名录是专利说明书的内容之一,IBM专利服务器将参考专利名称作为链接点,点击专利名称,系统显示参考专利的全记录,注意,这种链接是双向的,以当前专利为参考的新专利也是一个链接点。全记录格式只显示专利权项的第一项,如果要看整个权项的文本,点击“show a11claims”链接点。
2.4浏览说明书图像
在专利全记录页面的顶部,点击“View images”按钮,可浏览这个专利的说明书图像。使用浏览器“文件”菜单中的打印功能,可直接输出说明书。从图像页面退回到全记录显示页面,不能用浏览器的“back”按钮,而要关闭或缩小当前的窗口。
3.其它辅助服务
3.1专利说明书订购
3.2资源导航
3.3珍稀专利子数据库
为了提高本站点的趣味性,IBM专利服务器开发了一个功能,当你遇到一个很有意思的专利时,你可以击专利页顶部的Vote按钮,把这个专利推荐给珍稀专利子数据库,千千万万的访问者和你共同推荐、共同欣赏。浏览一下这个小数据库,你会发现人类曾发明过些什么稀奇的东西。