Des 403 Forbidden pour les Bots chez 1and1

Des 403 Forbidden pour les Bots chez 1and1

Dernièrement j’ai rencontré quelques problèmes avec le service de création de miniatures Apercite : le screenshot généré était un 403 Forbidden, comprenez “Accès refusé / interdit”.
Quand j’ai testé manuellement sur leur site, le bug était aléatoire en fonction de la taille des miniatures et du fait d’activer ou non le javascript (je n’ai toujours pas compris à quoi ça servait d’ailleurs). Un mail a été envoyé à leur support il y a une 20aine de jours mais toujours pas de réponse à l’heure actuelle.

Edit 04/2015 : Majestic ne parait plus bloqué sur les serveurs 1and1
Edit 11/2017 : C’est reparti pour un tour. François Goube est au courant, apparemment Majestic est en négociation avec eux.

Je vous laisse admirer les raisons évoquées, qui ne tiennent pas vraiment la route. Ensuite, la méthodologie que j’ai utilisé lorsque j’ai constaté ça, pour comprendre que le blocage venait bien des serveurs 1and1.

bot majestic bloqué sur les serveurs 1and1

Du coup j’ai checké :

  • le .htaccess : rien
  • au niveau applicatif : rien dans mon code PHP
  • le robots.txt (illogique car Apercite explique qu’il ne tient pas compte de ce fichier mais dans une démarche de debuggage on part de de 0) : rien
  • l’administration de mon hébergement : rien

J’appelle la hotline 1 and 1 qui me certifie qu’il n’y a aucune restriction de leur côté.

J’épluche les logs apache et je retrouve mes 403 et même plus que ça :

  • 208.110.91.xxx – – [20/Jan/2014:18:00:02 +0100] “GET /robots.txt HTTP/1.0” 403 609 xx.fr “-” “Mozilla/5.0 (compatible; MJ12bot/v1.4.4; http://www.majestic12.co.uk/bot.php?+)” “-“
  • 184.173.183.xxx – – [20/Jan/2014:17:57:31 +0100] “GET /robots.txt HTTP/1.1” 403 609 xx.fr “-” “AddThis.com robot tech.support@clearspring.com” “-“
  • 144.76.23.xxx – – [20/Jan/2014:18:04:22 +0100] “GET xx/xx HTTP/1.1” 403 609 xx.fr “-” “Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.0; trendictionbot0.5.0; trendiction search; http://www.trendiction.de/bot; please let us know of any problems; web at trendiction.com) Gecko/20071127 Firefox/3.0.0.11″ “-“
  • 89.145.95.xx – – [20/Jan/2014:18:02:09 +0100] “GET xx/xx HTTP/1.1” 403 609 xx.fr “-” “Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)” “-“

La 1ère constatation c’est que pas mal de bots paraissent être bloqués, dont Majestic SEO : “compatible; MJ12bot/v1.4.4; http://www.majestic12.co.uk/bot.php?+

La 2eme constatation c’est que j’ai des 403 forbidden sur le robots.txt : ça écarte le fait que ce soit un problème qui vienne de mon code PHP. Il reste donc la piste du .haccess ou du blocage serveur.

Reproduire le bug avant de les rappeler

L’idée c’est de tester si le blocage est au niveau de l’adresse IP ou du User Agent. Direction Firefox et création d’un “user agent Majestic” avec l’extension User Agent switcher pour voir ce que ça donne.

majestic_user_agent_switcher

Des users agents  sont prédéfinis mais pas celui que je veux.

Pour émuler MajesticSeo il suffit d’aller dans Outil > Defaut user agent > Edit User Agents … puis de remplir les champs comme sur le screenshot. La ligne la plus importante est “user Agent”. Pour résumer c’est un copier / coller de ce que j’ai récupéré dans le log serveur.

Pour l’activer c’est ensuite très simple : Outil > Defaut user agent > Majestic … (Majestic est le nom donné dans le champ description)

Par magie j’ai un beau Error 403 – Forbidden – L’accès au fichier requiert une autorisation.

1and1_403_forbiden

Confirmation de blocage au niveau des serveurs mutualisés

Après un long coup de fil et plusieurs mails au support 1and1, j’ai bien eu confirmation que Majestic était bloqué sur leurs serveurs mutualisés pour cause de surcharge. Du coup ça craint parce qu’on doit passer à côté de pas mal de backlinks en France.

Nous vous informons que le robot “Majestic 12” a été bloqué sur nos serveurs et ne pourra donc pas y avoir accès.

La raison est une surcharge suite à nombre d’accès trop important de leur part.

Nous restons disponibles pour de plus amples informations.

Pas de blocage sur les serveurs virtuels

MAJ 04/02

Le bot n’est pas bloqué sur les offres virtuelles d’après nos informations.
Nous restons disponibles pour de plus amples informations.

Jérôme pasquelin - jeromeweb

Entrepreneur et Geek depuis plus de 20 ans.

Entrepreneur et Geek depuis plus de 20 ans.

8 Comments

  1. ‘Presque’ tout à fait d’accord avec toi, mais moi aussi je suis chez eux, moi aussi je viens d’y passer, à ce ‘problème’ !!!
    Ils nous avaient pourtant bien prévenus, même avec finalement une mise à jour des hébergements qui ne s’est faite que progressivement, et donc discrètement !!!
    Il n’empêche, surtout que c’est surtout le changement de version de PHP qui engendre une foule d’erreurs et selon le code ou les scripts que l’on ‘avait’ employé soit ça passe quand même soir il y a une solution d’urgence ( par exemple ici http://blog.unesourisetmoi.info/index.php?article1191/erreur-php-5-5 ), soit il faut mettre ses scripts à jour, mais de toutes manières le codage évoluant à la même vitesse exponentielle que le Net, il faut s’y plier, donc soir être codeur et maîtriser, soir obtenir la bonne aide de la bonne personne 😉
    Tout le reste, blocage ou non n’a finalement rien à voir, c’est juste une histoire de compatibilité des différents codages …
    @mitié
    bg

  2. jeromeweb Author

    Hello,
    Bon à savoir qu’ils ont fait des MAJ des mutualisés dernièrement.

    Par contre ce ont deux problèmes différents (le sujet de cet article et ce que tu décris) car les 403 sont mêmes sur le robots.txt

  3. Salut

    Quant j’ai lu “1&1”, j’ai de suis compris que ce n’était pas pour leur tresser des fleurs dans les cheveux mais pour leur déposer des chrysanthèmes sur l’autel de leur serveurs.

    Et là, je pousse un soupir, qui veut dire “pfff, encore un argument pour éviter de devenir client”. Encore un.

    Concernant le robot de Majestic, je ne suis pas d’accord avec 1&1, ils ne surchargent pas les serveurs, ne loadent pas les images et autres gros fichiers (vidéo/audio). Ils se contentent de scraper les pages, à la recherche de liens. ET C’EST TOUT.

    Quant au robots.txt, ça me laisse sur le cul.

    Donc, un crawler ne pourra pas
    – naviguer en respectant la confidentialité de certains fichiers/répertoires bloqués par robots.txt
    – les crawlers comme Majestic ne sont pas les bienvenus… qui nous dit que d’autres crawlers ne sontpas bloqués, y compris des crawlers de Google (qu’ils soient annoncés comme étant de Google ou pas) ?

  4. jeromeweb Author

    Salut Loran, il y a pas mal d’autre “bots” bloqués, confirmés par le support.
    L’inconvénient des mutualisés…

    Si tu analyses tes logs au niveau du crawler Majestic / a hrefs, ça bourrine quand même pas mal, même si ça ne telecharge que le HTML brut comme tu dis.
    Je pense que le problème fondamental par rapport à 1and1 c’est le nombre de crawls / seconde qui est trop élevé et qui fait saturer les serveurs.
    A suivre, François de Majestic est en train de voir tout ça

  5. Salut Jérôme,

    Il est récent ce problème, non? Car jusqu’il y a peu, j’avais accès à tous les résultats Majestic.
    Cela donne une motivation de plus de passer aux VPS!

    Amicalement,

    Bruno

  6. jeromeweb Author

    Hello Bruno,
    D’après ce que j’ai vu dans les logs, les 403 ont commencé depuis décembre mais je ne peux pas remonter avant, j’ai oublié de les sauvegarder.

    Si tu migres ton site sur un VPS, ça ne changera rien pour toi à ce niveau là, ça servira juste aux webmasters des sites vers lesquels tu fais des backlinks 😉

  7. Refdamien

    Salut Jérôme,
    merci bcp pour ton billet qui m’a bien éclairé sur le sujet.
    Par contre, j’ai remarqué que certains de mes anciens sites sur serveur mutualisé 1&1 n’avaient pas ce problème.
    Une explication ?
    Merci

  8. jeromeweb Author

    Salut @Refdamien,
    Les blocages ne sont plus en place désormais. Peut être que sur certains serveurs c’est encore le cas mais globalement la plupart des bots sont autorisés

Post Comment