您的位置: 首页 SEO

深入了解百度蜘蛛(BaiduSpider)

  百度蜘蛛,英文名:BaiduSpider。它像一只寻找猎物的蜘蛛,爬行在巨大的互联网上搜索自己的目标,非常生动却又陌生。不管你是一名seo从业人员还是爱好者,都在试图掌握百度蜘蛛的喜好和行踪,尝试如何把它吸引过来、如何把它服务好、如何引导它的行走路线、如何把它留下来。深入了解百度蜘蛛,是做好百度搜索引擎优化的重点。

深入了解百度蜘蛛(BaiduSpider)

  怎么了解自己的网站是否有蜘蛛来抓取过? 

  网站主机的“网站日志->访问日志”里有各种到访信息,有普通用户访问信息、有各种搜索引擎的访问信息、甚至电商平台的访问信息都可能有。我们把它下载到本地,用记事本打开搜索“ Baiduspider/2.0”,如果有百度蜘蛛爬过会搜到相关信息,比如下面这段内容就是搜索引擎抓去了http://www.shuyear.com/a/archive_show_6_69.html,留下的爬行痕迹[07/Aug/2024:16:37:18 +0800] "GET http://www.shuyear.com/a/archive_show_6_69.html HTTP/1.1" 200 5757 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "www.shuyear.com" "text/html" "/data/user/htdocs/a/archive_show_6_69.html" 0.000 - 116.179.37.213

  继续解读上面百度蜘蛛留下的信息:(1)爬行时间[07/Aug/2024:16:37:18 +0800],即2024-8-7 16:37:18;(2)爬行页面http://www.shuyear.com/a/archive_show_6_69.html;(3)百度蜘蛛标志Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html);(4)百度蜘蛛IP:116.179.37.213,属地:中国山西阳泉 联通。116.179.37.*‌百度蜘蛛主要用于访问和收集互联网上的网页、图片、视频等内容,然后分门别类建立‌索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

  目前对百度蜘蛛的各IP号段说法不一,贴出来仅作参考。

  1)抓取你网站的网页蜘蛛

  60.172.229.61、61.129.45.72、61.135.162.*

  2)百度竞价蜘蛛

  61.135.165.134、117.34.74.66、118.122.188.194、119.63.196.9、125.39.78.185

  3)百度统计的蜘蛛

  61.135.186.*

  4)站长工具的模仿的百度蜘蛛

  61.147.98.146、61.188.39.16、113.98.254.245、117.21.220.245、117.28.255.42

  5)搜外站长工具的模仿的百度蜘蛛

  124.248.34.52

  6)114站长工具箱模仿的百度蜘蛛

  119.147.114.213、121.10.141.*

  7)百度图片蜘蛛

  123.15.**.**

  8)抓取网站内页收录的权重较低的非原创,需要通过一段时间考察

  123.125.71.*

  9)站长工具检测造成的无用

  125.90.88.*

  10)百度考察期蜘蛛或降权蜘蛛

  159.226.50.*、180.76.5.*、180.76.5.87、220.181.158.107

  11)伪装百度蜘蛛

  180.149.130.*

  12)新站及站点有不正常现象

  183.91.40.144、203.208.60.*

  13)不间断巡逻各站就是路过

  210.72.225.*

  14)沙盒或者有被K站

  123.125.68.*、218.30.118.102、220.181.68.*

  15)此ip爬过的文章或首页,绝对24小时内放出来和隔夜快照

  220.181.108.*

  16)百度蜘蛛IP来过,准备抓取

  123.125.66.*、220.181.7.*

  17)度过新站考察期

  121.14.89.*

  18)百度抓取首页的专用IP,网站首页快照更新快,隔夜更新

  220.181.108.95

  19)百度的权重IP段,抓取的文章第二天放出来,权重较高

  220.181.108.92

  20)综合性权重IP,抓取文章和首页,权重较高

  220.181.108.91、220.181.108.75

  21)抓取内页收录的,但权重较低

  123.125.71.95、123.125.71.97、123.181.108.77、123.125.71.106

  22)抓取网站首页的,也属于权重段,权重较高。

  220.181.108.89、220.181.108.94、220.181.108.97、220.181.108.80、220.181.108.77、220.181.108.83、220.181.108.86

  在了解百度蜘蛛的各种IP分段后,我们就可以使用正则表达式将普通访客和百度蜘蛛访问记录区分开,甚至弄清楚具体哪个蜘蛛来访是干什么的。这对于网站管理员了解网站流量和指导seo优化非常具有参考价值,解开长久以来的疑惑“这些访客是什么情况?”、“有没有百度蜘蛛来爬行我的网站?”、“这个页面有蜘蛛爬行但是未收录”……,我们还可以通过站长工具了解某个IP是否是真实的百度蜘蛛

百度蜘蛛ip号段

  百度蜘蛛喜欢什么?

  搜索引擎喜欢的百度蜘蛛也不例外。(1)超级链接,不管是内链还是外链都能一定程度增加内容的权重,超级连接所在页面的权重以及外链个数增多都能增加内容的权重。(2)内容原创度,一篇好的文章需要较高的原创度、字数达到1000字以上,TDK相关性强等条件。(3)网站上线时间长,百度蜘蛛偏好上线时间长的网站,同等条件下这类网站的权重更高更容易被收录。(4)内容更新频繁,有规律高频更新网站更容易吸引百度蜘蛛。

声明:本文内容可能属于摘抄或转载。若发现本站文章存在版权问题,如发现文章、图片等侵权行为,请联系我们删除。