De nombreux articles ont déjà été fais sur le sujet, l’idée ici n’est pas de réinventer la roue mais d’apporter ma modeste expérience sur le sujet, en partageant une façon de faire qui permet d’obtenir des résultats corrects pour un minimum d’effort.

Quand on veut lancer un nouveau site, deux options possibles : on achète un nom de domaine neuf, sans lien entrant déjà existants, ou on essaye de récupérer un nom de domaine expiré, qui possède déjà quelques backlinks, ce qui peut permettre de positionner le site beaucoup plus rapidement.
Il a deux façons de faire, On peut y mettre les moyens financiers en passant par des services comme DomRaider ou KiffDom, où les tarifs des noms de domaines atteignent souvent plusieurs centaines d’euros. Sinon il y a la technique du pauvre, qui consiste à crawler des sites de type annuaires ou autre, contenant de grosses quantités de liens sortants. Pour cela il y a besoin de quelques outils :

La première étape consiste à identifier un site contenant beaucoup de lien sortant dans la thématique (ou éventuellement un généraliste) en corrélation avec la thématique du site que vous souhaitez lancer. Si vous souhaitez lancer un site sur le vin, une requête Google « annuaire vin » devrait déjà vous apporter quelques résultats. Une fois le ou les sites identifiés, on passe à la partie crawl avec Xenu.

La phase de crawl

On lance le crawl avec Xenu, en pensant bien à cocher dans « View » -> « Show broken link only »

xenu broken link

car les liens qui nous intéressent sont des liens cassés, plus précisément ceux qui renvoient un statut http « no such host » ou si vous utilisez d’autres outils que Xenu « DNS Lookup failed », ce qui signifie en gros qu’aucune adresse IP n’a pu être liée au nom de domaine.

xenu no such host

Une fois le crawl terminé, on exporte via « file » -> « Export to TAB separated file » et on « glisse-dépose » le fichier .txt généré dans un Excel déjà ouvert pour ne pas avoir à convertir le séparateur des données.

Nettoyage des données avec Excel

On supprime toutes les colonnes sauf « Address » et « Status-Text ». On filtre ensuite cette dernière pour ne garder que les lignes en « no such host » et on supprime toutes les autres. On supprime ensuite la colonne « Status-Text » pour ne garder que la colonne « Adress ».

no such host excel

Il va ensuite falloir isoler les noms de domaines des URLs entières en colonnes A. Pour cela une petite formule Excel à mettre en B1 et à tirer vers le bas :

=GAUCHE(STXT(A1;CHERCHE("://";A1;1)+3;9^9);CHERCHE("/";STXT(A1;CHERCHE("://";A1;1)+3;9^9))-1)

Là il ne vous reste normalement que les NDD. On colle le contenu de la colonne B en valeur dans la colonne A, On fait un chercher-remplacer sur Excel pour supprimer toutes les occurrences de « www. » et ensuite on va supprimer les sous domaine « faux positifs » (autres que www) grâce à cette formule à mettre en B1 et à tirer vers le bas:

=SI(ET(NBCAR(A1)-NBCAR(SUBSTITUE(A1;".";))=2; ESTERR(CHERCHE("www";A1)<>1));"sous domaine à supprimer";"OK")

La formule est fonctionnelle à 99%, elle en laisse parfois passer un ou deux. Des lecteurs plus compétents que moi sur Excel sauront surement l’améliorer. Ensuite on filtre via la colonne B de façon à ne garder en colonne A que les ndd.tld, sans sous domaines. On supprime ensuite les doublons en colonne A, et on supprime la colonne B. A ce stade on a une liste propre de NDD potentiellement expirés, pour laquelle on va vérifier le profil de lien.

Vérification des métriques avec SEOTool + majestic

A ce stade le mieux est d’utiliser le connecteur Majestic SEO de SEOtools (nécessite un compte Majestic payant)

index data

On insert les ndd dans le champ « URL(s) du connecteur, on sélectionne dans le champs « fields » les indicateurs qui nous intéressent (personnellement j’ajoute juste « ExtBackLinks » et «RefDomains » à ceux déjà présents). On se place en A1 dans le doc Excel et on « Insert ».



xenu broken link

Et la paf, on se retrouve avec toutes les métriques Majestics des NDD qui nous permettent d’éliminer déjà un paquet de déchet.

majestic

Il ne vous reste ensuite plus qu’a aller vérifier la disponibilité réelle de ces NDD via la recherche multiple chez gandi.net, puis d’aller vérifier l’historique de positionnement dans SEMrush et vérifier également qu’il n’a pas été spammé dans la wayback machine.