蜘蛛相关的知识

于芷晴唯美写真

于芷晴唯美写真

一,蜘蛛的介绍

搜索引擎对互联网网页进行爬取工作是由爬虫来完成的,爬虫是一个爬取程序,通常我们称为蜘蛛,因为百度的爬虫命名是baiduspider(中文翻译名为:百度蜘蛛)。谷歌的爬虫命名是GoogleBot(中文翻译名:谷歌机器人),国内

大部分人主要是做百度搜索引擎的排名优化,所以普遍把搜索引擎的爬取程序叫做蜘蛛。

二,蜘蛛的功能

搜索引擎的爬取程序,主要有两个功能,负责两项工作。一是要去对目标页面进行爬取,资源下载存储到网页库。二,是对自己下载的页面进行连接识别,提取网页中的连接,作为待抓取目标。

三,蜘蛛的抓取策略

蜘蛛不仅仅要对目标网页进行抓取,也同事要发现新的URL。哪么蜘蛛是怎么样来收集URL的呢?搜索引擎抓取了A页面信息,并且收集A页面上的所有URL,去掉URL库中已经存在的连接,新的链接添加到待抓取队列。对于这些新的URL到底什么时间再去进行爬取,跟A页面的权重有着很大的关系。通常业内人士经常说的引蜘蛛便是到蜘蛛访问频率较高的页面留下自己网站的链接,让蜘蛛更快的发现该链接。

四,蜘蛛的识别

先在IIS日志中找到蜘蛛的IP地址

点击开始-运行-输入cmd-点确定-输入nslookup IP地址-回车。会有下面baiduspider信息显示

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>