BaiduSpider niet te stoppen

  • Onderwerp Auteur
  • Gebruiker
  • Gebruiker
Lees meer
22 sep 2015 16:38 #5726 door
BaiduSpider niet te stoppen werd gestart door
BaiduSpider
De laatste maanden heb ik behoorlijk veel last en problemen met de BaiduSpider, op één of andere manier kan ik het niet voor elkaar krijgen om die te stoppen.

Hieronder een aantal pogingen die ik al uitgevoerd heb in de .htaccess bestand
Code:
##begin code ##start blocking potentially unwanted bots. RewriteCond %{HTTP_REFERER} !^$ RewriteCond %{HTTP_USER_AGENT} ^$ [OR] RewriteCond %{HTTP_USER_AGENT} ^GbPlugin [NC] RewriteCond %{HTTP:Content-Disposition} \.php?[s\d]? [NC] RewriteCond %{HTTP:Content-Type} image/.+ [NC] RewriteCond %{HTTP_USER_AGENT} BOT/0\.[0-9] RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC,OR] RewriteRule ^.* - [F,L] ##end code. bai bots.

Of op deze manier
Code:
##begin code ##start blocking potentially unwanted bots. RewriteCond %{HTTP_REFERER} !^$ RewriteCond %{HTTP_USER_AGENT} ^$ [OR] RewriteCond %{HTTP_USER_AGENT} ^GbPlugin [NC] RewriteCond %{HTTP:Content-Disposition} \.php?[s\d]? [NC] RewriteCond %{HTTP:Content-Type} image/.+ [NC] RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC] RewriteRule ^.* - [F,L] ##end code. bai bots.

En op deze manier
Code:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot SetEnvIfNoCase User-Agent “BOT for JCE” bad_bot <Limit GET POST> Order Allow,Deny Allow from all Deny from env=bad_bot </Limit>

In de robots.txt bestand het volgende geplaatst
Code:
User-agent: Baiduspider Disallow: /

Geen idee meer wat nu verder te doen, en of dat de informatie van de code niet correct blijkt te zijn
Discussie gesloten.
  • Gast
  • Gebruiker
  • Gebruiker
Lees meer
22 sep 2015 16:38 #5727 door Gast
Beantwoord door Gast in topic BaiduSpider niet te stoppen
Je hebt zowel Baiduspider en Baiduspider-image. De robots.txt die je nu gebruikt blokkeert beide, maar het is dus mogelijk om het los te bepalen. Je kan kijken hoe Baidu zelf haar eigen bot beperkt op baidu.com/robots.txt .

Met Google Translate op de FAQ van Baidu kan je bij kopje 7 ook de methode tegen zoals je die gebruikt in je robots.txt, maar daar staat nog wel het volgende bij.

Please note: Baiduspider-cpro crawled and not built into the index, just perform the operation agreed with the customer, it does not comply with robots protocol, if Baiduspider-cpro caused distress to you, please contact Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.. Baiduspider-ads crawled and not built into the index, just perform the operation agreed with the customer, it does not comply with robots protocol, if Baiduspider-ads caused distress to you, please contact your customer service specialists.


Oftewel, de spiders Baiduspider-ads en Baiduspider-cpro laten zich niet tegenhouden door de robots.txt. Je kan dan of Baidu mailen, of ip-adressen blokkeren die de bot gebruikt. Hier vindt je een lijst met ip-adressen: www.useragentstring.com/Baiduspider_id_248.php
Discussie gesloten.
  • Martijn Maandag
  • Administrator
  • Administrator
  • www.reisverslagen.netVertaler van Joomla op crowdin.com/project/joomla-cms.Vertaler van document
Lees meer
22 sep 2015 16:38 #5728 door Martijn Maandag
Beantwoord door Martijn Maandag in topic BaiduSpider niet te stoppen
Aangezien dit weinig met Joomla te maken heeft heb ik het geheel verplaatst.

www.reisverslagen.net
Vertaler van Joomla op Crowdin .
Vertaler van documentatie en helpschermen via het volunteers.joomla.org/teams/community-translation-te
Discussie gesloten.
Gemaakt door Kunena