Ahrefs搜索引擎蜘蛛是什么?如何禁止AhrefsBot垃圾蜘蛛?

由:张小六 发布于:2024-04-14 分类:搜索引擎 阅读:388 评论:0
腾讯云云产品广告 800x77
阿里云800x79
京东云800x79
流量卡广告位1300x70

一、Ahrefs搜索引擎的AhrefsBot是什么

  AhrefsBot是一个国外的搜索引擎蜘蛛。不过对于大部分不做外贸的网站来说除了浪费自己的服务器资源外,没有任何好处。简单说,AhrefsBot是一个营销网站的爬取蜘蛛,负责分析全球各种类型网站的信息,大数据年代,数据研究虽然很重要,但是像我们这样的站长不做外贸的或者还没有达到一定层级用不到那种全球数据分析型网站,所以直接禁止此类搜索引擎爬取数据即可,那么究竟如何禁止呢?详细的介绍你可以搜Ahrefs查看他们官网的英文解释。

Ahrefs搜索引擎蜘蛛是什么?如何禁止AhrefsBot垃圾蜘蛛?-张小六博客网

二、AhrefsBot的IP段

张小六博客网的小编通过对一天的网站日志进行分析,你们猜猜一共有多少个不同的AhrefsBot蜘蛛ip来抓取网站数据?半天的功夫竟然有有几十个不同IP的AhrefsBot,细思极恐。如下图所示,

 

Ahrefs搜索引擎蜘蛛是什么?如何禁止AhrefsBot垃圾蜘蛛?-张小六博客网

 

Ahrefs搜索引擎蜘蛛是什么?如何禁止AhrefsBot垃圾蜘蛛?-张小六博客网

Ahrefs搜索引擎蜘蛛是什么?如何禁止AhrefsBot垃圾蜘蛛?-张小六博客网

三、直接封AhrefsBot ip段

被AhrefsBot蜘蛛爬取的站服务器用的腾讯云,腾讯云后台有安全组可以使用,所以直接屏蔽AhrefsBot的IP段,是最简单粗暴,效果立竿见影的方法。进入腾讯云后台,进入你的服务器列表,点击服务器的安全组,配置安全组规则。把下面已出现ip段全部添加进去就行了。(张小六博客网是直接把51.222.*.*和54.36.*.*的IP都封了)

 

四、使用robots.txt封禁

   一般来说,只要是遵循robots规则的蜘蛛或者爬虫,都可以使用robots.txt来禁止它爬取。AhrefsBot官方也说遵守这个规则,不过实际上是如果你不是一开始就添加了这个规则,你都不知道AhrefsBot什么时候会随机时间段继续爬取你的robots.txt文件。

所以想要立竿见影的办法就是直接封对应的IP段。如果你仍然想在robots里添加禁止AhrefsBot爬取的话那么规则如下:

 

User-agent: AhrefsBot

Disallow: /

 

友情提醒:如果你刚搭建网站的话,而且robots还没有制作,那么请你现在立刻马上制作,因为robots特别重要的。

 

五、使用apache或者nginx来封禁

Linux系统下使用宝塔面板,装的apache的话那创建规则文件.htaccess还是很方便的,规则如下:

<IfModule mod_rewrite.c>

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]

RewriteRule !(^robots\.txt$) - [F]

</IfModule>

 

 

Windows2008、2012或更高系统下规则文件web.config (手工创建web.config文件到站点根目录)

 

<?xml version="1.0" encoding="UTF-8"?>

<configuration>

<system.webServer>

<rewrite>

<rules>

<rule name="Block spider">

<match url="(^robots.txt$)" ignoreCase="false" negate="true" />

<conditions>

<add input="{HTTP_USER_AGENT}" pattern="SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" ignoreCase="true" />

</conditions>

<action type="AbortRequest"/>

</rule>

</rules>

</rewrite>

</system.webServer>

</configuration>

注:“{HTTP_USER_AGENT}”所在行中是不明蜘蛛名称,根据需要添加以"|"为分割。

 

规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可,附各大蜘蛛名字:

 

Ahrefs蜘蛛:AhrefsBot

google蜘蛛:googlebot

百度蜘蛛:baiduspider

百度手机蜘蛛:baiduboxapp

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider

 

apache、iis屏蔽限制ip访问

评论

精彩评论