Guide Rapide

sorties Vod, Dvd, Blu‑Ray

Ils jouent dans des films, après-demain soir à la télé :
21h00
Tchéky Karyo
Tchéky Karyo
20h55
Sean Penn
Sean Penn
20h55
Joaquin Phoenix
Joaquin Phoenix
20h55
Catherine Frot
Catherine Frot

Récupérer les résultats de recherche de Google





1/ Mais pourquoi donc vouloir analyser les résultats de recherche de Google ?


En 2013, Google cesse de mettre à disposition du public ce qu'on appelait le PageRank, un indicateur qui permet de savoir la popularité d'un site sur le net, ou disons plus exactement la densité de liens convergents vers un site internet.

C'est ce qui a motivé l'idée de faire une analyse des résultats de recherche chez Google, afin de déterminer directement, en gros, quelle est la notoriété des sites, qui serait établie en fonction de la présence de ces sites dans les résultats de recherche Google.



2/ Quelques considérations sur le référencement et le PageRank


Les liens qui sont placés sur d'autres sites internet que le vôtre, et qui pointent vers votre site sont appelés des "backlinks".
Plus ces liens sont nombreux, et plus ils proviennent de sites étant eux-mêmes "populaires selon Google", et plus votre site sera considéré comme populaire par Google.
Et plus il est considéré populaire par Google et plus vous avez de chance d'être bien placé sur les pages de résultats de recherche chez Google, recherche sur des mots clés qui apparaissent sur votre site bien sûr.

Si votre site parle de foot et que vous tapez "philosophie" ou "esthétique" dans Google, vous avez peu de chance de voir apparaître votre site dans les résultats de recherche, même si vous avez un PageRank de 8 ou 9 ( je crois que le max est 10 ).


Si vous apparaîssez souvent dans les premiers résultats de recherche de Google, vous aurez plus de trafic, c'est à dire un plus grand nombre d'internautes qui arriveront sur votre site par le biais d'une recherche sur Google.

Vous voyez donc l'intérêt que Google considère que votre site est populaire.
Et vous comprenez donc l'importance du PageRank, c'est à dire d'avoir des liens pointant vers votre site, puisque pour Google, c'est le critère de la popularité. On a l'habitude de dire qu'un lien pointant vers votre site est une sorte de "vote" en votre faveur.


Petite remarque: l'idéal est bien sûr aussi que votre site parle de choses qui intéressent les internautes.
Si vous parlez de "bretzels volants" dans votre site, et que vous êtes classé premier sur la page de résultats de recherche Google lorsqu'on tape "bretzels volants", ça vous fera une belle jambe : vous n'aurez aucun trafic, puisque personne ne fait de recherche sur ces mots clés.



- Le PageRank ne fait pas tout bien sûr.

Il faut avoir pensé à mettre dans son site, bien en évidence, dans les titres par exemple, et aussi en haut du site, des mots clés qui sont susceptibles d'être l'objet de recherche par les internautes.
Pour le Guide Rapide ( le site sur lequel vous êtes en ce moment ), le sujet du site est l'actualités des films qui sortent en dvd.
Lorsqu'un internaute fait une recherche pour savoir quels sont les films qui sortent en dvd, il va logiquement taper dans son moteur de recherche les mots: "sorties dvd", ou "derniere sortie dvd", ou "sortie dvd 2013" ( si on est en 2013 ).
On ne va donc pas faire apparaître sur le site les mots "actualité des films qui sortent en dvd", mais plutôt mettre en évidence les mots "sortie dvd".
Et vous pourrez remarquer qu'il y a une densité importante dans ce site de ces deux mots, qui apparaissent notamment dans presque tous les titres.

Une fois que vous avez bien pensé votre site, ce qui n'est pas très très compliqué, puisqu'il suffit de réfléchir à ce que peut bien taper comme mot clé un internaute dans son moteur de recherche et mettre ces mots clé en évidence dans votre site, il faut encore que vous ayez du contenu dans votre site, c'est à dire du texte.
Un site qui ne comporterait que des titres et des images aurait des difficultés à être bien référencé par Google.
Pour Google, du contenu, c'est du texte.

Mais une fois que vous avez réuni ces deux conditions :
- des mots clés judicieusment choisis et mis en valeur sur votre site.
- du contenu
Le facteur principal qui va vous permettre d'avoir du trafic en provenance de Google, c'est votre PageRank.
C'est à dire la quantité et la qualité de vos backlinks. ( vous vous rappelez, ce sont les liens placés sur d'autres sites et qui pointent vers votre site )

C'est ce que j'ai pu constater sur le Guide Rapide.
J'ai travaillé essentiellement sur le fait de rajouter du contenu sur mon site ( c'est à dire des fiches de films ).
Et pendant 2 ans, cette stratégie a été payante.
Plus je rajoutais des films sur mon site, plus son contenu devenait important, et plus j'avais de trafic en provenance de Google.
Mais à partir de 2012, lorsque les algorithme PANDA et PINGOUIN ont été mis en place par Google, le trafic du site n'a jamais cessé de baisser. En gros, ce trafic a été divisé par trois en deux ans. Alors que le contenu du site a doublé dans le même temps, passant de 3000 à 6000 films.
Il semblerait que j'aurais mieux fait de travailler à obtenir des backlinks ! !
Donc à faire des alliances avec d'autres webmasters.
En effet, à part les sites du genre Amazon, qui obtiennent des backlinks de façon naturelle, puisqu'ils ont des milliers d'affiliés qui vendent les produits Amazon sur leur propre site et qui donc font plein de liens vers Amazon, la plupart des sites qui veulent réussir sur la toile doivent avoir une stratégie d'obtention de liens.
Bien sûr, si votre site intéresse les bloggeurs par exemple, ils auront tendance à faire un lien vers votre site dans leur section "sites préférés".
Mais comme souvent les blogs ont des PageRank faibles, il vous faudra des milliers et des milliers de blogs qui fassent un lien vers vous pour que vous puissiez avoir un PageRank fort.
Les blogs qui ont un PageRank fort ne feront pas un lien vers vous, car en général un blog avec un PageRank fort est un blog qui veut réussir à être connu et qui donc a une stratégie d'alliance avec d'autres blogs: naturellement, il ne fera pas de lien vers vous, car les liens présents sur son site pointeront uniquement vers des sites partenaires avec qui il fait des échanges de liens.

J'ai relevé sur le net, c'est une information qu'on trouve deci-delà, qu'il faudrait 92 000 backlinks en provenance de sites à PageRank de 1, pour que votre site ait un PageRank de 6.

Autrement dit, si vous attendez que votre site devienne populaire aux yeux de Google par le simple fait que votre site est intéressant et que des bloggueurs vont faire un lien vers vous, vous pouvez attendre sûrement très très longtemps (à moins que votre site soit vraiment ultra-génial et très original, mais à notre époque, il y a déjà beaucoup de sites très bons, bons ou à peu près corrects sur presque tous les sujets...).

Bref, il ne faut pas rêver !
Sans stratégie pour obtenir des backlinks, vous êtes condamnés d'avance au néant !
Et, étant donné que les "gros" sites ont au moins un salarié ou même plusieurs qui travaillent sur la promotion du site, vous n'aurez jamais le temps de pouvoir construire à la fois votre site (son contenu) et un réseau de backlinks suffisants pour voir un gros trafic arriver sur votre site.
Le succés passe à priori par la formation d'une véritable entreprise et de moyens budgétaires en conséquence.



3/ Les principes de base de la notériété sur le web : une démocratie censitaire


Comme nous l'avons vu, la notoriété de votre site sur le web, et donc votre trafic en provenance de Google, découlera de la quantité et de la qualité des liens pointant vers votre site.
QUESTION : qui a la capacité de faire un lien vers votre site ?
REPONSE : le propriétaire d'un site !

Etant donné qu'il y a entre 2 et 3 millions de sites en France, on peut donc dire que le pannel d'"électeurs" est inférieur à 5% de la population.

Google a donc choisi un mode de fonctionnement très particulier, où l'internaute lambda n'a guère de poids sur la hiérarchie des sites internet.
Ce qui compte, c'est d'obtenir des backlinks placés sur des sites à fort PageRank. Donc de négocier avec d'autres webmasters.
Et si vous êtes un site qui démarre, avec un PageRank donc faible, aucun webmaster d'un site à moyen ou fort PageRank ne voudra faire alliance avec vous !
Bref, il est preque impossible désormais de pouvoir "percer" sur le web.
On a donc actuellement dans le monde d'internet une situation figée: les sites qui trustent les premières places des résultats de recherche chez Google sont toujours les mêmes ou presque.
Google est relativement conscient du problème, puisqu'il décide en 2013 d'arrêter la diffusion du PageRank, qui est un outil permettant de savoir avec quels sites il faut faire alliance.
Bien sûr, cela ne changera pas grand chose: les gros sites se paieront les services de sociétés spécialisées capable de déterminer les stratégies "SEO" - mot anglais pour "référencement" - à mettre en place, et notamment identifier les sites dont il faut obtenir des liens.



4/ Faire un programme php pour analyser et récupérer les résultats de recherche sur le moteur de Google


L'idée c'est d'automatiser la présentation de mots clés au moteur de recherche Google, en créant au préalable une liste de mots clés, par exemple la liste des mots pris dans un dictionnaire.

Une fois cette liste établie, on peut utiliser des fonctions php (curl, ou la fonction file_get_contents) qui vont ouvrir une page internet dont on fournit l'url (l'adresse) et permettent de mettre le contenu de cette page dans un fichier texte.
Ensuite on utilise la fonction preg_match ou preg_match all, qui permet de récupérer des morceaux de texte en fonction de masques prédéfinis ( cette technique utilise les expressions régulières )

Ce genre de procédure est très classique et permet de récupérer de façon automatisée des données sur des sites web.

Le problème est que Google interdit aux "robots", c'est à dire aux programmes, de venir consulter ses pages de résultats de recherche.
C'est ce que j'ai pu constater par moi-même.
Au bout d'une centaines de pages de résultats de recherche downloadées par mon programme, Google refuse ensuite de servir de nouvelles pages de recherche. Il envoie des pages sur lequelles ne se trouvent plus ces résultats de recherche.

Mais comment fait-il pour savoir que ce n'est pas un utilisateur humain qui demande une page de résultats de recherche mais un robot ?
En fait c'est assez simple :
Lorsqu'on fait une recherche en tant qu'être humain chez Google, la page demandée au serveur de Google possède une url assez complexe, du genre:

https://www.google.fr/search?q=mots+clés+que+vous+proposez+en+recherche+a+Google&num=10
&safe=off&rlz=1C1MDNA_frFR493&espv=210&es_sm=93&
ei=GgWJUqqpO6fE0QWS0YDIAw&start=10&sa=N&biw=1600&bih=728

Les codes qui sont compris dans l'url sont probablement générés par des algorithmes dans le javascript (j'imagine), qui calculent ces codes à partir des mots clés demandés, et peut-être aussi de l'IP d'où provient la demande.
En tous cas, si on change de mots clés, on voit que l'url demandée présente des codes différents.
Bref, si vous demandez à google de servir une page ayant pour url :

https://www.google.fr/search?q=mots+clés+que+vous+proposez+en+recherche+a+Google

Google va tout de suite comprendre qu'il ne peut s'agir d'un utilisateur humain, mais d'un robot, car il les codes sont manquants.
Il ne va donc servir que quelques pages de résultats de recherche et ensuite votre fonction curl ou file_get_contents va vous ramener une page qui contient un message du type :
"Veuillez confirmer que vous êtes bien un être humain en tapant ci-dessous le code dessiné dans l'image suivante...". Un truc de ce genre.
Donc si vous être un programmeur lambda comme moi, vous êtes coincé...
Car faire une reconnaissance graphique pour déterminer quel est le code dessiné dans l'image proposée n'est pas du tout du même niveau que construire des expressions régulières pour identifier des chaînes de caractères dans un texte.



5/ Alors comment faire pour récupérer les résultats de recherche de Google ?


- Si vous avez des dons pour la programmation et la reconnaissance graphique vous pouvez essayer de construire un programme qui "lit" les codes dessinés dans les images proposées par Google pour vérifier que vous êtes un humain.
- Si vous être doué en javascript, peut-être percerez-vous l'algorithme qui permet de présenter à Google une url avec des codes "conformes" ?
- Si vous êtes très patient, vous prenez comme fournisseur d'accès internet SFR, qui donne une IP différente à chaque connexion de votre box, et toutes les trois minutes, vous débranchez votre box pour obtenir un nouvel IP, et Google vous donnera accès à 100 nouvelles pages de résultats de recherche !
- Cette option énoncée ci-dessus est évidemment ridicule: vous allez passer votre vie à débrancher et rebrancher votre box !
- vous pouvez aussi pourquoi pas faire tout manuellement: taper vous-même des mots clés dans le moteur de recherche de Google et copier coller le contenu des pages HTML obtenues dans des fichiers que vous ferez ensuite analyser par votre programme php. C'est longuet, mais en une semaine vous pourrez faire environ 1500 mots clés, soit environ 750 000 résultats de recherche, c'est déjà pas mal pour faire un classement des 10 000 premiers sites français par exemple.
- l'idéal serait d'avoir de très gros moyens techniques et de pouvoir vous connecter à internet sans passer par un fournisseur d'accès. Et changer constamment d'IP. ( se cacher derrière un proxy ne marche pas, car Google connaît toutes les ip des proxys ). Mais ça, je ne sais pas si vous y parviendrez. C'est techniquement possible puisque les FAI le font, mais arriverez vous à cette compétence technique et pourrez-vous le faire de façon légale ? Ca, je ne sais pas.



6/ Attention, l'analyse simple des résultats de recherche Google n'est pas suffisant pour déterminer le PageRank



C'est assez complexe à déterminer en fait.
Il faut au minimum savoir si le mot clé est important, c'est à dire couramment entré par les internautes dans leur moteur de recherche. Si un site est placé en première position des résultats de recherche chez Google mais sur un mot clé très peu courrant, cela ne signifie pas grand chose en terme de PageRank du site. Ni de trafic d'ailleurs.