Les bases du référencement et de Robot.txt que vous devez connaître

Robots.txt est un outil souvent mal compris qui peut jouer un rôle important dans le référencement. Pour cette raison, il ne faut pas l’ignorer. Nous allons voir ici ce qu’est exactement Robots.txt, ce qu’il fait et comment l’utiliser correctement.

Qu’est-ce que le fichier Robots.txt et que fait-il ?

Le fichier Robots.txt est un fichier texte de base qui utilise le protocole d’exclusion des robots (REP) pour réguler les robots Web, également appelés crawlers. Le REP est une norme utilisée pour informer les robots des zones de votre site Web ou de votre serveur qui doivent ou ne doivent pas être analysées.

Le fichier Robots.txt peut empêcher les robots d’analyser certaines parties de votre site Web ou de votre serveur. Cette fonction est généralement utilisée lorsque vous ne souhaitez pas qu’un robot d’exploration analyse des dossiers ou des répertoires spécifiques, tels qu’un dossier d’images. Elle peut également s’avérer utile si vous savez que certaines parties de votre site ont besoin d’un travail de référencement et que vous préférez que d’autres zones soient analysées plutôt que celles qui ont besoin d’être travaillées.

Le fait d’empêcher Google d’explorer des zones spécifiques de votre site ne l’empêchera pas d’être indexé par le moteur de recherche. Il est probable que Google indexera toujours l’URL, mais laissera de côté des informations telles que le titre et les métabalises.

Il est également important de noter que le fichier robot.txt est davantage une ligne directrice pour les robots d’exploration. Si les bons robots respectent les règles que vous avez définies dans le fichier robots.txt, les robots malveillants les ignorent complètement. Si vous avez besoin de protéger certaines zones spécifiques de votre site, ne vous fiez pas à robots.txt. Utilisez des mesures de sécurité faisant appel à des mots de passe.

Voir aussi :  Comment l'automation Ads augmenteront votre retour sur investissement - tout ce que vous devez savoir

Comment utiliser correctement le fichier Robots.txt ?

L’utilisation des fichiers Robots.txt sur votre serveur n’est pas incroyablement difficile. En fait, si vous avez des connaissances de base sur la façon de télécharger des fichiers sur votre hébergement, vous devriez être en mesure de mettre en place votre propre fichier Robots.txt.

Pour créer un fichier Robots.txt, il suffit d’ouvrir un éditeur de texte brut tel que Notepad sur votre ordinateur et d’enregistrer le document vierge sous le nom de Robots. Veillez à enregistrer le fichier en tant que fichier .txt. Une fois que vous avez créé ce fichier, il est temps de le remplir avec les codes de restriction appropriés pour votre site Web.

Il existe plusieurs commandes que vous devez connaître. Elles sont les suivantes :

User-Agent :

La commande « User-Agent » est utilisée pour identifier les crawlers web qui recevront toutes les restrictions suivantes. Les crawlers web sont identifiés par leur nom, et un astérisque (*) est utilisé pour symboliser tous les crawlers. Le crawler dont vous devez vous préoccuper est Googlebot.

Disallow :
Autoriser :

Les commandes « Disallow » et « Allow » indiquent les chemins d’accès aux répertoires que les robots d’exploration ne sont pas autorisés à analyser ou sont autorisés à le faire.

Combinons maintenant tous ces éléments dans un simple fichier Robots.txt qui permet à Googlebot d’analyser l’intégralité d’un site Web tout en interdisant à tous les autres robots d’explorer la page Produits du site.

Agent utilisateur : Googlebot
Autoriser : /

Utilisateur-Agent : *
Disallow /products

Comme vous pouvez le constater, la première ligne de texte identifie le Googlebot comme le robot d’exploration devant recevoir la commande suivante. La commande « Autoriser » suivante utilise une barre oblique (/) pour désigner l’intégralité d’un site Web. Considérez la barre oblique / comme l’URL d’un site Web. Techniquement, il s’agit du répertoire de premier niveau du serveur Web.

Voir aussi :  10 React Interview Questions You Should Know in 2022

Comme les deux premières lignes permettent à Googlebot d’analyser l’ensemble du site Web, les deux secondes interdisent à tous les autres agents utilisateurs d’analyser la page des produits. La page des produits de ce site se trouverait sur www.YOUR-URL.com/Products.

Vous ou l’administrateur de votre site Web saurez quelles sont les zones de votre site dont il faut interdire l’accès aux robots d’exploration, le cas échéant.

Une fois que vous avez saisi les commandes appropriées dans votre fichier Robots.txt, il vous suffit de le placer dans le répertoire de premier niveau de votre serveur Web. Si cela a été fait correctement, vous devriez pouvoir accéder à votre fichier robots.txt en allant à www.YOUR-URL.com/robots.txt

Robots.txt et Sitemaps

Pour terminer, il est important de savoir que vous pouvez placer l’URL de votre sitemap dans votre fichier robots.txt pour vous assurer que les robots le trouveront. Pour ce faire, il suffit d’utiliser la commande suivante

Sitemap :

Suivie de l’URL de votre sitemap. Par exemple :

Plan du site : www.YOUR-URL.com/sitemap.xml

Vous pouvez procéder ainsi pour tous les sitemaps de votre URL si vous avez des sitemaps pour plusieurs sections de votre site.

Maintenant que vous savez comment configurer un fichier robots.txt avec des commandes simples d’autorisation et d’interdiction pour les différents crawlers, vous pouvez mettre en place les restrictions appropriées pour votre site. Si vous n’êtes pas sûr des zones qui doivent être interdites, il est probablement préférable de ne rien faire. En cas de doute, assurez-vous simplement que Googlebot a accès à votre site et que votre sitemap figure dans votre fichier robots.txt.

Voir aussi :  A faire et à ne pas faire pour automatiser vos médias sociaux

Titan Web Marketing Solutions est l’une des meilleures sociétés de développement Web au service des petites et moyennes entreprises.