Google vient 
d'acquérir Re-captcha, mais pourquoi cette achat?
- Tout  d'abord qu'est ce que re-captcha?
 
 
L’objectif d’un captcha est de s’assurer que c’est une personne qui répond et  non pas un automate informatique.  Pour cela, on peut notamment présenter à l'utilisateur une image représentant un texte déformé et lui demander de l'écrire , un robot ne pouvant réussir l'exercice.
Une équipe de jeunes informaticiens a eu  l’idée d’utiliser cette technique pour aider à digitaliser des livres : le projet Recaptcha était né!
Des milliers d’ordinateurs sont utilisés pour digitaliser des ouvrages  anciens, écrits avant l’arrivée de l'informatique. Les logiciels de lecture, OCR  (Optical Recognition Character) sont très performants, mais buttent parfois sur  des mots qu’ils n’arrivent pas à déchiffrer.
L’idée de l’équipe de Carnégie  Mellon est la suivante : on va utiliser les mots que ces programmes OCR ne  savent pas lire pour créer des captchas. La méthode utilisée est la suivante: 
On propose un captcha composé de deux mots :
- Le premier a déjà été  identifié par l’ordinateur.
- Le second est celui que l’on cherche a  comprendre.
- Si vous identifiez le premier, on fait l’hypothèse que vous  allez interpréter intelligemment le second. Par sécurité, ce deuxième mot sera  présenté plusieurs fois, et ne sera confirmé que si trois personnes différentes  ont donné la même interprétation
Luis von Ahn, l’un des responsables du projet, estime à 60 millions le nombre  de captchas utilisés chaque jour. A raison de 10 secondes par opération, cela  représente 150 000 heures de travail par jour ! C’est l’équivalent de 20 000  personnes à temps plein !
L’utilisation reste inchangée pour l’internaute (par rapport à autre système  de captcha )il n’a donc pas l’impression de fournir un travail supplémentaire et  l’installation est facile et gratuite pour le Webmaster (via un widget et une  API).
L’atout de ce site est donc de jouer la quantité des contributions plus que sur l’importance de chacune d’entre elles. Ainsi, le service profite seul à son créateur qui n’a pas à partager la valeur créée.
-  Mais quel lien avec Google? Ne possède t-il pas son propre système de  captcha?
 
Le lien c'est Google Books , dont wikipédia donne la définition  suivante : 
"Google Books est un service en ligne permettant d'accéder à des  livres numérisés. Anciennement appelé Google Print, le début de la numérisation  des livres a été annoncé par Google en décembre 2004. Disposant de moyens  considérables, cette bibliothèque virtuelle comptait plus de sept millions de  livres en novembre 2008[1]. Google numérise des livres provenant de nombreuses  universités américaines et de tout horizon pour ensuite les diffuser sur ses  serveurs. Droits d'auteurs obligent, certains ne sont que partiellement publiés.  Pour le moment, les livres imprimés entre 1839 et 1922 sont rarement accessibles  en entier pour les internautes basés hors des  Etats-Unis."
Depuis le service s'est tout de même  internationalisé et des livres du monde entier sont en train d'être numérisés pour  rejoindre la bibliothèque google!
Des accords sont en cours de préparation  avec  des bibliothèques françaises et notamment celle de la ville de Lyon pour que  google numérise gratuitement leurs collections!
Quand on sait que la numérisation de la seule Bibliothèque de Lyon représenterait un coût de 60 000 000€, on comprend qu'avec un système de 
crowdsourcing  comme Re-captcha Google peut voir là un moyen efficace d'économiser de l'argent  à longs termes.
Hazard ou pas, c'était justement le sujet d'un petit  reportage sur le JT de france 2 ce soir même! Je me suis donc débrouillé pour  vous le récupérer (la qualité est moyenne mais c'est regardable). 
Se faisant, Google veut intelligemment assoir sa position dominante comme porte d'accès à l'information en ligne.
Ce billet vous à plu? Pensez à vous abonner au flux RSS  et à voter sur Wikio (bouton en bas)