百度蜘蛛,英文名:BaiduSpider。它像一只寻找猎物的蜘蛛,爬行在巨大的互联网上搜索自己的目标,非常生动却又陌生。不管你是一名seo从业人员还是爱好者,都在试图掌握百度蜘蛛的喜好和行踪,尝试如何把它吸引过来、如何把它服务好、如何引导它的行走路线、如何把它留下来。深入了解百度蜘蛛,是做好百度搜索引擎优化的重点。
怎么了解自己的网站是否有蜘蛛来抓取过?
网站主机的“网站日志->访问日志”里有各种到访信息,有普通用户访问信息、有各种搜索引擎的访问信息、甚至电商平台的访问信息都可能有。我们把它下载到本地,用记事本打开搜索“ Baiduspider/2.0”,如果有百度蜘蛛爬过会搜到相关信息,比如下面这段内容就是搜索引擎抓去了http://www.shuyear.com/a/archive_show_6_69.html,留下的爬行痕迹[07/Aug/2024:16:37:18 +0800] "GET http://www.shuyear.com/a/archive_show_6_69.html HTTP/1.1" 200 5757 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "www.shuyear.com" "text/html" "/data/user/htdocs/a/archive_show_6_69.html" 0.000 - 116.179.37.213
继续解读上面百度蜘蛛留下的信息:(1)爬行时间[07/Aug/2024:16:37:18 +0800],即2024-8-7 16:37:18;(2)爬行页面http://www.shuyear.com/a/archive_show_6_69.html;(3)百度蜘蛛标志Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html);(4)百度蜘蛛IP:116.179.37.213,属地:中国山西阳泉 联通。116.179.37.*百度蜘蛛主要用于访问和收集互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
目前对百度蜘蛛的各IP号段说法不一,贴出来仅作参考。
1)抓取你网站的网页蜘蛛
60.172.229.61、61.129.45.72、61.135.162.*
2)百度竞价蜘蛛
61.135.165.134、117.34.74.66、118.122.188.194、119.63.196.9、125.39.78.185
3)百度统计的蜘蛛
61.135.186.*
4)站长工具的模仿的百度蜘蛛
61.147.98.146、61.188.39.16、113.98.254.245、117.21.220.245、117.28.255.42
5)搜外站长工具的模仿的百度蜘蛛
124.248.34.52
6)114站长工具箱模仿的百度蜘蛛
119.147.114.213、121.10.141.*
7)百度图片蜘蛛
123.15.**.**
8)抓取网站内页收录的权重较低的非原创,需要通过一段时间考察
123.125.71.*
9)站长工具检测造成的无用
125.90.88.*
10)百度考察期蜘蛛或降权蜘蛛
159.226.50.*、180.76.5.*、180.76.5.87、220.181.158.107
11)伪装百度蜘蛛
180.149.130.*
12)新站及站点有不正常现象
183.91.40.144、203.208.60.*
13)不间断巡逻各站就是路过
210.72.225.*
14)沙盒或者有被K站
123.125.68.*、218.30.118.102、220.181.68.*
15)此ip爬过的文章或首页,绝对24小时内放出来和隔夜快照
220.181.108.*
16)百度蜘蛛IP来过,准备抓取
123.125.66.*、220.181.7.*
17)度过新站考察期
121.14.89.*
18)百度抓取首页的专用IP,网站首页快照更新快,隔夜更新
220.181.108.95
19)百度的权重IP段,抓取的文章第二天放出来,权重较高
220.181.108.92
20)综合性权重IP,抓取文章和首页,权重较高
220.181.108.91、220.181.108.75
21)抓取内页收录的,但权重较低
123.125.71.95、123.125.71.97、123.181.108.77、123.125.71.106
22)抓取网站首页的,也属于权重段,权重较高。
220.181.108.89、220.181.108.94、220.181.108.97、220.181.108.80、220.181.108.77、220.181.108.83、220.181.108.86
在了解百度蜘蛛的各种IP分段后,我们就可以使用正则表达式将普通访客和百度蜘蛛访问记录区分开,甚至弄清楚具体哪个蜘蛛来访是干什么的。这对于网站管理员了解网站流量和指导seo优化非常具有参考价值,解开长久以来的疑惑“这些访客是什么情况?”、“有没有百度蜘蛛来爬行我的网站?”、“这个页面有蜘蛛爬行但是未收录”……,我们还可以通过站长工具了解某个IP是否是真实的百度蜘蛛
百度蜘蛛喜欢什么?
搜索引擎喜欢的百度蜘蛛也不例外。(1)超级链接,不管是内链还是外链都能一定程度增加内容的权重,超级连接所在页面的权重以及外链个数增多都能增加内容的权重。(2)内容原创度,一篇好的文章需要较高的原创度、字数达到1000字以上,TDK相关性强等条件。(3)网站上线时间长,百度蜘蛛偏好上线时间长的网站,同等条件下这类网站的权重更高更容易被收录。(4)内容更新频繁,有规律高频更新网站更容易吸引百度蜘蛛。
声明:本文内容可能属于摘抄或转载。若发现本站文章存在版权问题,如发现文章、图片等侵权行为,请联系我们删除。