搜 索 引 擎

25

Upload: tiger-byers

Post on 02-Jan-2016

194 views

Category:

Documents


2 download

DESCRIPTION

搜 索 引 擎. 搜索引擎的作用. 网页搜索 搜索包含指定关键字的网页。 各种类型的文件搜索 软件安装程序 如 IE6.0 的安装软件 图片文件 如一朵玫瑰 其他指定格式的文件搜索 如一首 MP3 的歌曲、一个 Flash(SWF) 动画文件. 搜索引擎的分类. 一种是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎,如 Google 、 Excite 、天网、百度等。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 搜   索   引  擎

搜 索 引 擎

Page 2: 搜   索   引  擎

搜索引擎的作用 网页搜索

搜索包含指定关键字的网页。

各种类型的文件搜索 软件安装程序 如 IE6.0 的安装软件 图片文件 如一朵玫瑰 其他指定格式的文件搜索 如一首 MP3 的歌曲、一

个 Flash(SWF) 动画文件

Page 3: 搜   索   引  擎

搜索引擎的分类 一种是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎,如 Google 、 Excite 、天网、百度等。

另一种是目录索引,仅仅是按目录分类,将网站列表并链接,用户完全可以不用进行关键词( Keywords )查询,仅靠分类目录也可找到需要的信息,实际上这种目录索引算不上是真正的搜索引擎。如 Yahoo 等。

Page 4: 搜   索   引  擎

工作原理 搜索引擎使用下面两种方法获得各个网站的信息,并保

存到自己的数据库。 定期搜索:即每隔一段时间,搜索引擎主动派出“机器人”程

序,对指定范围的 IP 地址的互联网站进行检索,一旦发现新的网站,就自动提取网站的网页信息和网址加入自己的数据库。

靠网站的拥有者主动向搜索引擎提交网址:它在一定时间内定向向提交的网站派出“蜘蛛”程序,扫描该网站并将有关信息存入数据库,以备用户查询。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求相符的网站,便采用特殊的算法计算出各网页的信息关联度,然后根据关联度高低,按顺序将这些网页链接返回给用户

Page 5: 搜   索   引  擎

常用的几种搜索引擎 全文搜索

Google: http://www.google.com 网易 (http://www.163.com) 使用了它的全文搜索引擎服务

百度: http://www.baidu.com 新浪、搜狐、 21CN 、 263 、 TOM 等使用了它的全文搜索引擎服务

北大天网: http://e.pku.edu.cn 大量教育网内的资源,提供 FTP 搜索

网站分类目录搜索 新浪:其网站搜索最好 搜狐:网站的分类目录整理最好,最适合于浏览 网易:开放式目录,有许多网上高手加盟 中文 Yahoo 另类:网络实名 http://www.3721.com

Page 6: 搜   索   引  擎

天网搜索引擎介绍地址: http://e.pku.edu.cn 北京大学

优点:是教育科研网内的搜索引擎,速度较快,有功能强大的 FTP 检索能力,可以直接搜索 FTP 文件,包括图片、声音、动画等。

缺点:搜索范围较小,数据库中资料不够多,并且由于有很多是学生提供的网站或网页,当链接的服务器没有运行时,经常造成只能看到摘要,不能调出全文的死链接。

Page 7: 搜   索   引  擎

天网的网页搜索 查询时无需使用明文的“ &” ,与操作,只要空格就可以了,“天网”会在关键词之间自动添加“ &”

阅读查询结果: 页面右上方的是“结果中查询”或者“新查

询”的表单。 换页链接:当结果数很多时请在“选择页面”右

方点击你要切换的页面的结果起始号链接; 表示统计栏,包括用户输入的查询词 , 有关查询

结果和搜索时间

Page 8: 搜   索   引  擎

查询结果, 包括网页标题、该网页网址、(根据上下文确定要查看网页的)动态摘要(在摘要信息中,您的原始查询字词,都高亮显示,以便阅读)和属于该网站下的“更多页面”链接;

网站类聚,“……上更多页面”说明可以在该站点中找到更多包含查询关键词的页面链接;

历史网页,保证您在存有网页的服务器暂时出现故障时仍可浏览该网页的内容,或者可以浏览到不是最新版的该网页的内容。

Page 9: 搜   索   引  擎

支持精确的短语匹配: 一般情况下,用空格隔开的查询词不进行短语查询;

如果需要,请用引号括起来 , 当做短语来查询。 例如 :peer to peer 和 "peer to peer" 的返回结果是不太一样的

支持忽略词(常用的词和字符)查询: 有些词太常见,在一般的查询中被忽略。如果需要,

可以通过把要查询的短语用引号括起来,执行精确短语查询。 例如 : 美的空调 " 的 " 一般会被忽略,可以用双引号括起,查询词带着引号查询 " 美的空调 "

英文字母大小写是否有影响? 天网搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“ Unix” 、或“ unix” ,得到的结果都一样。

特点

Page 10: 搜   索   引  擎

天网的 FTP 搜索FTP 搜索是天网的特点,有按文件类型搜索、使用快捷方式搜索和 FTP 复杂搜索三种方式。

按类型搜索:输入主文件名(可使用 * 、 ?通配符 ) ,文件类型可以直接输入扩展名,也可以通过旁边的类型指定文件扩展名。 点击“分类搜索”下的各种类型,如“图像”、

“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。

搜索结果的处理(打开、保存)

Page 11: 搜   索   引  擎

使用快捷方式:天网搜索引擎为用户常用的搜索提供了快捷方式,将 FTP 文件分类列表,使用起来极为简单,直接点击快捷方式下所要的内容即可。

FTP 复杂搜索:可以指定搜索的文件的长度、最后修改日期和搜索范围。

例: 搜索一朵玫瑰花 搜索一张卡通图片 搜索一首“二泉映月”的 MP3音乐 搜索一个 IE5 的安装程序 搜索同学的名字 搜索一条新闻 搜索一篇关于 PDF 文件解密的文章

Page 12: 搜   索   引  擎

Google 搜索引擎 __ 特点 Google创立于 1999年。 2000年 9月, Goog

le成为中国网易公司的搜索引擎。 98年至今,已经获得 30 多项业界大奖。

支持 132种语言,包括简体中文和繁体中文; 网站只提供搜索引擎功能,没有其他累赘的服

务;速度极快,数据库存有 30 多亿个 Web 文件 ,

服务器有 3万台 ;智能化的“手气不错”功能,提供可能最符合

要求的网站; “ 网页快照”功能,能从 Google 服务器里直

接取出缓存的网页。

Page 13: 搜   索   引  擎

网址

Google 站点: www.google.com网易: www.163.com

Page 14: 搜   索   引  擎

Google 网页搜索——特点

文本搜索 可使用单个关键词进行搜索 可使用两个及两个以上关键词进行搜索

直接输入多个关键词,关键词之间用空格,这样就表示“ AND” 关系;

用减号“ -” 表示“非”,用于表示要求搜索结果不包含某些特定信息;

不支持OR 关系; 可精确搜索一句话。 忽略引号中的空格,如“计算机 应用”与“计算机应

用”的搜索结果相同 对网络上常见的英文单词及一些标点符号作忽略处理

Page 15: 搜   索   引  擎

Google 网页搜索 ---例子

搜索人名 搜索专业资料搜索结果的处理

Page 16: 搜   索   引  擎

图象搜索 目前 Google 上可搜索的图片数量达 3.3亿张 点击 Google 主页上的“图象搜索”链接。 目前的图象搜索主要是基于文件名的搜索,不是基于

图象内容的。 用法:

关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词(包含在文件名中)。

图象搜索中,使用英文作关键词可以搜到许多准确的结果,使用中文,效果较差,但有时 Google 会自动转换为英文或中文的拼音去搜索。

在“高级图象搜索”中可以指定图片文件的类型:JPG 或 GIF ,也可以用“ Filetype” 指定文件类型, 如 panda filetype:jpg

Page 17: 搜   索   引  擎

使用 Filetype 搜索文件 格式:

关键词(文件名或文件内容) filetype: 文件类型 注意: filetype 要小写,并指定为“搜索网页” 如:搜索引擎 filetype:ppt flower filetype:gif 佛山 filetype:doc 目前可搜索的文件格式:

DOC 、 PPT 、 XLS 、 RTF 、 PS 、 TXT 、 Lotus 文件; PDF 格式 ( 一种电子图书格式) 最精彩,可搜索 Flash 文件: SWF 文件

搜索到的结果,可点击打开,也可用右键快捷菜单“另存为”保存到本地磁盘。对于 Office 文档,还可以用 HTML 方式打开,以避免病毒的袭击。

Page 18: 搜   索   引  擎

其他特殊搜索 搜索的关键词包含在 URL 链接中

Inurl:mp3 yesterday once more 可用于搜索 MIDI 、 MP3 等文件

搜索的关键词包含在网页标题中 Intitle:Foshan University

搜索指定的网站范围 在图象搜索中,用: Panda site:edu.cn

搜索有多少链接到某个地址的网页 Link:fosu.edu.cn

Page 19: 搜   索   引  擎

从网上搜索、下载软件软件下载网站主要有三类:

大型软件下载网站。主要提供普通的免费和共享软件。如: joyo.foshan.net

软件主页:一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如: Microsfot 、 Adobe 、 Lotus 等公司的站点

其他主页下载:可以找到正式网站找不到的内容。 在教育网内,许多情况下可以用天网的 FTP 搜索。

如果用搜索引擎,则选择关键词很重要。可用关键词:软件名,下载, 版本 cdkey 软件大小

Page 20: 搜   索   引  擎

网络实名 网络实名服务为企业、公司等注册他们的产品或品牌的实名,当用户要在网络上以实名的形式查找自己需要的产品时,只要到实名服务器为自己的浏览器开通实名服务即可。

实名服务: www.3721.com “3721 网络实名”是新一代的网络访问技术,它具有十大功能,

其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。

例如,如果没有实名系统,要访问北京大学只能打网址: www.pku.edu.cn, 有了实名系统后,直接在地址栏中输入“北京大学”就可以访问到。

例如:要访问新浪网,只要在地址栏打入“新浪”或“ xinlang” 即可

Page 21: 搜   索   引  擎

有关搜索引擎的常见问题 有的网页可以浏览到,但搜索不到,原因有三点: 网上有,但是搜索引擎的机器人程序因为某种原因没有将它抓取到搜索引擎的数据库里

搜索引擎数据库里有该网页的信息,但是未能正确索引网页中信息

搜索引擎正确索引了网页中信息,但你使用的关键词太偏

Page 22: 搜   索   引  擎

正确搜索和提高效率的方法初学者搜索时容易犯的 6 个错误和解决方法

常见错误 1 :错别字 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。

常见错误 2 :关健词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太

高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。

常见错误 3 :多义词 要小心使用多义词,比如搜索“ java” ,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。

Page 23: 搜   索   引  擎

常见错误 4 :不会输关键词,想要什么输什么 类似这样的搜索:“张三与李四合作的有关红楼梦

的论文”,没有使用搜索引擎的规则将自己的要求分解。

张三 &李四 红楼梦

常见错误 5 :在错误的地方搜索 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。

常见错误 6 :停用词停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“ is” 、“ i” 、“ what” 、“ it” 等。一些搜索引擎在它的网页库里碰到这些词时会忽略

Page 24: 搜   索   引  擎

网上的图书资源电子图书的常见格式

EXE 、 CHM 、 HLP 、 PDF、WDL 、 LIT 不同格式的电子图书都配有自己的阅读器,所以要

阅读某种图书格式之前,要下载、安装阅读器。它通常可以在图书提供者的主页上找到。

查找论文等,不需要使用普通的搜索引擎了。有很多专门的电子图书网站。 中国期刊网 (CNKI) :佛大镜像 202.192.172.21 万方数据: http://www.wanfangdata.com.cn/ 各个专业都有专业信息资源,如中文的新闻类:

中新社 www.chinanews.com.cn 新华社 www.xinhua.net

各大学图书馆:如 www.lib.tsinghua.edu.cn

Page 25: 搜   索   引  擎

中国期刊网 (CNKI) :佛大镜像 202.192.172.21

万方数据: http://www.wanfangdata.com.cn/

各个专业都有自己的专业信息资源 如中文的新闻类:

中新社 www.chinanews.com.cn 新华社 www.xinhua.net

外交部各国资料: www.fmprc.gov.cn