搜 索 引 擎
随着网络技术及 WWW站点的增加,人们通过
Internet网上获取全球信息已经成为可能。作为检索众多的 WWW网址网页以及新闻论坛,BBS文章、
网上免费资源及文章的工具__搜索引擎( Search
Engines)发挥着重要的作用。具有更高的查全率、
查准率,能够提供智能化的专业服务、个性服务。
现代搜索引擎技术用到了信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计算机网络、
分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,这些技术的综合运用及人性关怀使得网络搜索引擎技术有了很大提高。新的标准、
新的技术也必将促进未来的搜索引擎向着更高、更快、更强的方向发展。
搜索引擎的概念
广义的搜索引擎泛指网络上提供信息检索服务的工具或系统。
狭义的搜索引擎主要是指利用网络自动搜索技术软件对 Internet网络资源进行收集、组织并提供检索服务的一类信息服务系统。
本章主要内容搜索引擎的历史搜索引擎的分类搜索引擎使用方法
Google简介搜索引擎推荐搜索引擎的历史
搜索引擎是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统,它包括信息采集、
信息整理和用户查询三部分。
早期的搜索引擎是把互联网中资源地址收集起来,
分类整理为目录,再一层一层地进行分类。要找信息可按分类一层层进入,最后到达目的地。这种方式只适用于在信息量不大的时候。
随着互联网信息的暴炸性增长,搜索引擎开始快速发展。随着 Yahoo!等现代搜索引擎的出现,搜索引擎的发展也进入了黄金时代。搜索引擎家族不断发展壮大,逐渐遍布信息世界的各个角落,
它们的种类、技术也在不断的发生变化。
搜索引擎的分类
1,按搜索机制分类
2,按搜索内容分类
3,按信息采集方法分类
1,按搜索机制分类
目录型搜索引擎
关键词型搜索引擎
混合型搜索引擎
(1)目录型搜索引擎
把搜集到的信息资源按照一定的主题分门别类,建立多级目录。
大目录下面包含子目录,子目录下面又包含子目录 ……如此下去,建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可查到所需信息。
(2)关键词型搜索引擎
关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位。
(3)混合型搜索引擎
兼有关键词型和目录型两种查找方式,既可直接输入关键词查找特定信息,又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。
2,按搜索内容分类
综合型搜索引擎
专业型搜索引擎
特殊型搜索引擎
(1)综合型搜索引擎
综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型,因此,利用它可以查找到几乎任何方面的信息。
(2)专业型搜索引擎
专业型搜索引擎只搜集某一行业或专业范围内的信息资源,因此,它在提供专业信息资源方面要远远优于综合型搜索引擎。如,IT信息、财经信息、
硬件报价、人才求职与招聘信息
(3)特殊型搜索引擎
特殊型搜索引擎是专门搜集特定类型格式的信息,例如专门搜集电话、人名、地址、图像、
股市信息等
3,按信息采集方法分类
机器人搜索引擎
目录搜索引擎
元搜索引擎
(1) 基于蜘蛛程序的机器人搜索引擎
这种搜索引擎由一个称为蜘蛛( Spider)的机器人程序自动访问网站,提取站点上的网页,
并根据网页中的链接进一步提取其他网页,或转移到其他站点上。由索引器为搜集到的信息建立索引,并根据用户的查询输入检索索引库,
然后将查询结果返回给用户。
该类搜索引擎的优点是信息量大、更新及时、
不需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
(2)目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于机器人的搜索引擎之间的一大区别。
(3)元搜索引擎
元搜索引擎的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。
搜索引擎使用方法
基本使用方法,目录式
目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则,确定要查找的内容或网站应该在哪个分类,然后逐级点击寻找。
基本使用方法,关键词式如果需要根据一些特定的条件来搜索,最好使用关键词搜索的方法。下面是一些基本的搜索规则,它们可以使搜索结果更迅速准确:
1,查询条件具体化 。查询条件越具体,就越容易找到所需要的资料。
2,使用加号把多个条件连接起来,有些搜索引擎可用空格代替加号。
3,使用减号把某些条件排除。
4,使用引号限定精确内容的出现。
使用技巧
( 1)选择合适的搜索工具
( 2)使用正确的搜索词
( 3)正确使用布尔检索(条件组合)
值得推荐的几个中文搜索引擎
全文搜索
– 衡量搜索引擎的指标:
查全率
查准率
速度
哪个重要?
– Google,http://www.google.com (需要出国访问权限)
新浪使用了它的全文搜索引擎服务
说明:这是 2004年 4月的情形,各大门户网站使用的搜索引擎服务经常会变化,留意 Powered by…
– 百度,http://www.baidu.com
21CN使用了它的全文搜索引擎服务
– 中国搜索 (原来的慧聪搜索) http://www.zhongsou.com
网易、搜狐,263使用了它的搜索引擎。
– 北大天网,http://e.pku.edu.cn
大量教育网内的资源,提供 FTP搜索
– 几大门户网站也有自己的搜索引擎,有时也能发挥作用。
推荐的搜索引擎? 网站分类目录搜索
– 新浪:其网站搜索最好
– 搜狐:网站的分类目录整理最好,最适合于浏览
– 网易:开放式目录,有许多网上高手加盟
– 中文 Yahoo
– 另类:网络实名 http://www.3721.com
新浪图片搜索,pic.sina.com.cn
– 新视科技,www.VisionNext.com.cn,提供多媒体搜索
找地图
– 城市通,www.chinaquest.com
– 图行天下,www.go2map.com.cn
Google简介
Google是目前最好用、功能最强大的搜索引擎之一。
世界上多个著名的门户网站(如雅虎 Yahoo!等)所使用的搜索功能,是由 Google提供引擎和技术支持的。
Google提供一系列革命性的新技术,包括完善的文本对应技术和先进的 Page Rank排序技术。
Google支持大多数的搜索基本语法规则。
Google不支持通配符,只能做精确查询。
Google的关键字可以是词组,也可以是句子。
随着 Google的不断发展,它提供了更多的垂直搜索的功能。比如目录服务、新闻组检索,PDF文档搜索、地图搜索、电话搜索、图像搜索,还有工具条、
搜索结果翻译、搜索结果过滤等更多的功能。
优秀搜索引擎推荐
1 Google
2 Baidu
3 Openfind
4 yahoo
5 新浪、搜狐、网易
6 天网使用 Google进行搜索
Google简介
– Google是一个搜索引擎,由两个斯坦福大学博士生 Larry Page与
Sergey Brin于 1998年 9月发明,Google Inc,于 1999年创立。 2000
年 7月份,Google替代 Inktomi成为 Yahoo公司的搜索引擎,同年 9月份,Google成为中国网易公司的搜索引擎。 1998年至今,Google
已经获得 30多项业界大奖。
– Google支持多达 132种语言,包括简体中文和繁体中文;
– Google网站只提供搜索引擎功能,没有花里胡哨的累赘;
– Google速度极快,据说有 10000多台服务器,200多条 T3级宽带;
– Google的专利网页级别技术 PageRank能够提供高命中率的搜索结果;
– Google智能化的“手气不错”功能,提供可能最符合要求的网站;
– Google的“网页快照”功能,能从 GOOGLE服务器里直接取出缓存的网页。
文本搜索
文本搜索
– 目前 Google已经收集索引了 40多亿张网页
– 使用单个关键词进行搜索
理解什么是“关键词”,跟普通意义上的关键词不同。
想象目标网页上应该有的若干个词。
网页的排名问题
– 使用两个及两个以上关键词进行搜索
直接输入多个关键词,关键词之间用空格,这样就表示,AND”
关系;
用减号,-”表示“非”,用于表示要求搜索结果不包含某些特定信息;
Google的帮助网页上说,不支持 OR关系,实际上是支持得不好;
– 使用一句话进行搜索
– 加上双引号。这在查找名言警句或专有名词时显得格外有用。
Google对网络上常见得英文单词及一些标点符号作忽略处理图象搜索
目前 Google可搜索 8.8亿张图片,自称为,因特网上最好用的图像搜索工具,
– Images.google.com或点击 Google主页上的“图象搜索”链接。
– 目前的图象搜索主要是基于文件名的搜索,不是基于图象内容的。
用法:
– 关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词。
– 图象搜索中,使用英文作关键词 可以搜到许多准确的结果,使用中文,效果较差,但有时 Google会自动转换为英文或中文的拼音去搜索(有时欠稳定,其他内容的搜索也有此现象)。
– 可以指定图片文件的类型,JPG或 GIF
如 panda filetype:jpg
1,Google.com
2,百度 (baidu.com)
3,Openfind.COM
4,雅虎 (yahoo.com/yahoo.com.cn)
5,新浪、搜狐、网易的搜索
6,图行天下 (Go2Map.com)
7,IT罗盘
(http://itsearch.ccidnet.com )
8,北大天网 (e.pku.edu.cn)
9,域名与网站搜索引擎
以下介绍的一些网站,提供了独特的域名搜索、网站排名与历史网页搜索功能。
( 1)中国互联网络信息中心( CNNIC)
http://www.CNNIC.net.cn
( 2)查询过期与删除的域名,
http://www.deleteddomains.com
( 3)查询网站排名,
http://www.alexa.com
( 4)查询历史网页,
http://www.archive.org
关于软件的搜索
软件下载网站主要有三类:
大型软件下载网站
– 主要提供普通的免费和共享软件。如:
www.skycn.com
软件主页
– 一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如,Microsfot,Adobe、
Lotus等公司的站点
个人主页下载
– 可以找到正式网站找不到的内容。
在教育网内,许多情况下可以用天网的 FTP搜索。
如果用搜索引擎,则选择关键词很重要。通常可用以下关键词:
软件名 下载 版本 cdkey 软件大小使用网络实名
登陆 www.3721.com,为自己的电脑开启网络实名功能。
–,3721网络实名”是新一代的网络访问技术,
它具有十大功能,其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。
– 访问新浪,只要在地址栏打入“新浪”或
,xinlang”即可
– 例如:在浏览器地址栏中输入上市公司股票代码,就可以获取实时行情为什么搜索引擎搜不到?
有些内容,网上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。
这样的内容,主要有 3类:
1、网上有,但是搜索引擎库里没有
– spider未能正确处理的网页性质及文件类型
– (如某些动态网页及 frame、数据库)
– 没有指向链接的孤岛网页
– spider访问时因为某些原因正好是死链接
– 被认为是劣质网页而不抓
– 因为 /色情 /反动 /spam/等问题而不抓的非法网页
– 需要输入用户名、密码方可打开的网页
– 网站用 robots协议拒绝搜索引擎抓取的网页
– 搜索引擎还未来得及抓取的新网页为什么搜不到? ---之二
2,搜索引擎库里有,但是未能正确索引网页中信息
– 分词引起误差
– 图型中的文字信息你看得懂但搜索引擎看不懂
– 停用词等搜索引擎故意不索引的信息
– 搜索引擎对某些网页有选择的索引,未索引全部网页信息
3、搜索引擎正确索引了网页中信息,但和你用的关键词不同
– 你用的搜索关键词中含有错别字
– 网页作者用了错别字
– 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,
文字的特性,允许有 n种方式表达同一种信息
– 简体繁体不同编码用户自己的错误
初学者搜索时容易犯的 6个低级错误和解决方法
– 常见错误 1:错别字
经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。
– 常见错误 2:关健词太常见
搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。
– 常见错误 3:多义词
要小心使用多义词,比如搜索,java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。
用户自己的错误
– 常见错误 4:不会输关键词,想要什么输什么
搜索失败的另一个常见原因是类似这样的搜索:
“现代爱情故事歌词”
– 常见错误 5:在错误的地方搜索
有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。
– 常见错误 6:停用词
停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如,is”、,i”、,what”、,it”等。
一些搜索引擎在它的网页库里碰到这些词时不会搜愿大家:
感受搜索引擎!
体会搜索引擎!
利用搜索引擎!