Semalt fournit des conseils sur la façon de gérer les robots, les araignées et les robots

En plus de créer des URL conviviales pour les moteurs de recherche , le fichier .htaccess permet aux webmasters d'empêcher des robots spécifiques d'accéder à leur site Web. Une façon de bloquer ces robots consiste à utiliser le fichier robots.txt. Cependant, Ross Barber, le responsable du succès client de Semalt , déclare avoir vu des robots d'exploration ignorer cette demande. L'une des meilleures façons consiste à utiliser le fichier .htaccess pour les empêcher d'indexer votre contenu.

Quels sont ces robots?

Il s'agit d'un type de logiciel utilisé par les moteurs de recherche pour supprimer de nouveaux contenus d'Internet à des fins d'indexation.

Ils effectuent les tâches suivantes:

  • Visitez les pages Web auxquelles vous êtes lié
  • Vérifiez votre code HTML pour les erreurs
  • Ils enregistrent les pages Web auxquelles vous vous connectez et voient quelles pages Web sont liées à votre contenu
  • Ils indexent votre contenu

Cependant, certains robots sont malveillants et recherchent sur votre site des adresses e-mail et des formulaires qui sont généralement utilisés pour vous envoyer des messages indésirables ou du spam. D'autres recherchent même des failles de sécurité dans votre code.

De quoi a-t-on besoin pour bloquer les robots d'indexation Web?

Avant d'utiliser le fichier .htaccess, vous devez vérifier les éléments suivants:

1. Votre site doit être exécuté sur un serveur Apache. De nos jours, même les sociétés d'hébergement Web à moitié décentes dans leur travail, vous donnent accès au fichier requis.

2. Vous devez avoir accès à vos journaux de serveur bruts de votre site Web afin de pouvoir localiser les robots qui visitent vos pages Web.

Notez qu'il n'y a aucun moyen de bloquer tous les robots nuisibles à moins que vous ne les bloquiez tous, même ceux que vous jugez utiles. De nouveaux robots apparaissent chaque jour et les anciens sont modifiés. Le moyen le plus efficace consiste à sécuriser votre code et à empêcher les robots de vous spammer.

Identification des bots

Les bots peuvent être identifiés par l'adresse IP ou à partir de leur "chaîne d'agent utilisateur", qu'ils envoient dans les en-têtes HTTP. Par exemple, Google utilise "Googlebot".

Vous devrez peut-être cette liste avec 302 bots si vous avez déjà le nom du bot que vous souhaitez garder à distance en utilisant .htaccess

Une autre façon consiste à télécharger tous les fichiers journaux du serveur et à les ouvrir à l'aide d'un éditeur de texte. Leur emplacement sur le serveur peut changer en fonction de la configuration de votre serveur. Si vous ne les trouvez pas, demandez l'aide de votre hébergeur.

Si vous savez quelle page a été visitée ou l'heure de la visite, il est plus facile de venir avec un bot indésirable. Vous pouvez rechercher le fichier journal avec ces paramètres.

Une fois, vous avez noté les bots que vous devez bloquer; vous pouvez ensuite les inclure dans le fichier .htaccess. Veuillez noter que bloquer le bot ne suffit pas pour l'arrêter. Il peut revenir avec une nouvelle adresse IP ou un nouveau nom.

Comment les bloquer

Téléchargez une copie du fichier .htaccess. Effectuez des sauvegardes si nécessaire.

Méthode 1: blocage par IP

Cet extrait de code bloque le bot en utilisant l'adresse IP 197.0.0.1

Ordre Refuser, Autoriser

Refuser de 197.0.0.1

La première ligne signifie que le serveur bloquera toutes les demandes correspondant aux modèles que vous avez spécifiés et autorisera toutes les autres.

La deuxième ligne indique au serveur d'émettre une page 403: interdite

Méthode 2: blocage par les agents utilisateurs

La façon la plus simple est d'utiliser le moteur de réécriture d'Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

La première ligne garantit que le module de réécriture est activé. La ligne deux est la condition à laquelle la règle s'applique. Le "F" à la ligne 4 indique au serveur de retourner un 403: Interdit tandis que le "L" signifie que c'est la dernière règle.

Vous allez ensuite télécharger le fichier .htaccess sur votre serveur et écraser le fichier existant. Avec le temps, vous devrez mettre à jour l'IP du bot. Si vous faites une erreur, téléchargez simplement la sauvegarde que vous avez effectuée.