Comme par habitude, Google tourne une nouvelle page de l’histoire du web (mais pas les premiers…). Et pour cause, il s’agit d’une nouvelle façon de traiter l’information. Google, en plus de référencer un nombre de pages hallucinant, comprend l’information qu’il indexe. Le web sémantique fait ces premiers pas !
Google a sorti récemment, plutôt discrètement, une nouvelle fonctionnalité : « Rich Snippets ».
Ces Snippets fournissent aux utilisateurs du moteur de recherche de l’information complémentaire aux résultats affichés. Pas très clair ? Par exemple, si une personne recherche un restaurant; google, en plus de renvoyer le bon résultat, y attache en complément des informations telles que une note, des commentaires, une gamme de prix… Cette fonctionnalité ouvre la porte à des requêtes nettement plus complexe (je recherche un restaurant, dont la gamme de prix est de 15~30€ et dont la note est supérieure à 3 étoiles). Bref, c’est une nouveauté indispensable si Google veut rester un moteur d’innovation et continuer à distancer ses compétiteurs.
Comment ca marche ?
Tout simplement (si j’ose dire), Google profite de la vague de mode qui entoure l’utilisation des standards Web (et notamment du (x)html propre - Sémantiquement valide).
En effet, afin de rendre les pages accessibles au plus grand nombre (ce qui inclut les personnes handicapées), le code HTML est de plus en plus descriptif sur le contenu de la page. De temps en temps, les seuls tags html ne permettent pas de typer suffisamment l’information. Les développeurs web cherchent notamment à clairement identifier certaines zones de la page comme le menu ou l’en-tête/pied de page. HTML5 fournira d’ailleurs des tags plus complets (header, footer, menu, article…) pour couvrir ce besoin.
Dans la même idée, les développeurs cherchent parfois à affiner le typage du contenu, comme par exemple pour décrire un CV (la liste des expériences, des compétences…) ou une carte de visite (avec le nom, l’adresse, les numéros de téléphone…)
La technique retenue par les développeurs (et par le W3C) a été d’ajouter des méta-informations dans les éléments html (par exemple dans class). Deux standards de structuration sont rapidement apparus :
- Les microformats
- RDFa (soutenu par le W3C)
Ainsi, il est possible de trouver actuellement un nombre important de pages créées en html et contenant des données structurées…. dont quasiment aucuns outils ne tiraient partis ! Manque comblé par Google Rich Snippets
Un enjeu majeur pour l’indexation
OK, mais pourquoi les développeurs vont faire plaisir à google ? A priori, il n’y a rien à y gagner…
Ce qui est une expérimentation aujourd’hui, deviendra rapidement un standard de recherche demain. En clair, si un site souhaite rester visible sur google, c’est-à-dire associé à des rich snippets (ou leurs - futurs - équivalents chez les concurrents), il faudra impérativement passer par RDFa ou les microformats.
Le web sémantique est donc le futur du SEO (Search Engine Optimization)
Un rapide coup d’oeuil sur RDFa
(Adapté de l’exemple fournit par o’reilly radar : http://radar.oreilly.com/2009/05/google-announces-support-for-m.html)
Voici un commentaire tiré d’Amazon :
Le code source pourrait ressembler à ça (code simplifié) :
<div>
<p>
79 of 98 people found the following review helpful:
</p>
<p>
<span>5.0 out of 5 stars</span>
<span><b>American Biographer: Jon Meacham</b>/span>
</p>
<p><a href="http://www.amazon.com/gp/pdp/profile/A2G8PQ9HNUY6NA/">
<span>Marian the Librarian</span></a> (NY, NY) -
</p>
<p>
<b>This review is from:
<a href="http://www.amazon.com/American-Lion-Andrew-Jackson-White/dp/1400063256/">
American Lion: Andrew Jackson in the White House (Hardcover)</a></b>
</p>
<p class="review">
American Lion is a wonderfully crafted biography about an incredibly interesting
and oft-overlooked American who helped shaped this country...
</p>
</div>
Pour que ce commentaire puisse être compris par Google, il faut y ajouter un marquage RDFa, qui respecte la grammaire définie ici : http://rdf.data-vocabulary.org/rdf.xml
Le code pourraît être ainsi écrit de la manière suivante :
<div xmlns:v=”http://rdf.data-vocabulary.org ” typeof=”v:review”>
<p>
79 of 98 people found the following review helpful:
</p>
<p>
<span property=”v:rating”>5.0 out of 5 stars</span>
<span><b>American Biographer: Jon Meacham</b>/span>
</p>
<p><a href=”http://www.amazon.com/gp/pdp/profile/A2G8PQ9HNUY6NA/”>
<span property=”v:reviewer”
about=”http://www.amazon.com/gp/pdp/profile/A2G8PQ9HNUY6NA/”>Marian the Librarian</span></a> (NY, NY) -
<span property=”v:dtreviewed”>1st April 2009</span>
</p>
<p>
<b>This review is from:
<a property=”v:itemreviewed”
about=”http://www.amazon.com/American-Lion-Andrew-Jackson-White/dp/1400063256/”
href=”http://www.amazon.com/American-Lion-Andrew-Jackson-White/dp/1400063256/”>
American Lion: Andrew Jackson in the White House (Hardcover)</a></b>
</p>
<p class=”review” property=”v:description”>
American Lion is a wonderfully crafted biography about an incredibly interesting
and oft-overlooked American who helped shaped this country…
</p>
</div>
Google sera capable de comprendre que ce bout de données concerne un commentaire sur American Lion: Andrew Jackson in the White House, et sera donc capable de l’attacher aux résultats de recherche adaptés.
Va-t-on enfin vers la requête qualitative en somme?
Non, c’est plus searchWiki qui permettra d’y arriver (fonctionnalité de google qui te permet d’évaluer un resultat de recherche)