Translate

16 sept. 2009

Google achète recaptcha : crowdsourcing et numérisation

Google vient d'acquérir Re-captcha, mais pourquoi cette achat?
  • Tout d'abord qu'est ce que re-captcha?


L’objectif d’un captcha est de s’assurer que c’est une personne qui répond et non pas un automate informatique. Pour cela, on peut notamment présenter à l'utilisateur une image représentant un texte déformé et lui demander de l'écrire , un robot ne pouvant réussir l'exercice.

Une équipe de jeunes informaticiens a eu l’idée d’utiliser cette technique pour aider à digitaliser des livres : le projet Recaptcha était né!

Des milliers d’ordinateurs sont utilisés pour digitaliser des ouvrages anciens, écrits avant l’arrivée de l'informatique. Les logiciels de lecture, OCR (Optical Recognition Character) sont très performants, mais buttent parfois sur des mots qu’ils n’arrivent pas à déchiffrer.

L’idée de l’équipe de Carnégie Mellon est la suivante : on va utiliser les mots que ces programmes OCR ne savent pas lire pour créer des captchas. La méthode utilisée est la suivante:

On propose un captcha composé de deux mots :


- Le premier a déjà été identifié par l’ordinateur.


- Le second est celui que l’on cherche a comprendre.


- Si vous identifiez le premier, on fait l’hypothèse que vous allez interpréter intelligemment le second. Par sécurité, ce deuxième mot sera présenté plusieurs fois, et ne sera confirmé que si trois personnes différentes ont donné la même interprétation


Luis von Ahn, l’un des responsables du projet, estime à 60 millions le nombre de captchas utilisés chaque jour. A raison de 10 secondes par opération, cela représente 150 000 heures de travail par jour ! C’est l’équivalent de 20 000 personnes à temps plein !


L’utilisation reste inchangée pour l’internaute (par rapport à autre système de captcha )il n’a donc pas l’impression de fournir un travail supplémentaire et l’installation est facile et gratuite pour le Webmaster (via un widget et une API).


L’atout de ce site est donc de jouer la quantité des contributions plus que sur l’importance de chacune d’entre elles. Ainsi, le service profite seul à son créateur qui n’a pas à partager la valeur créée.


  • Mais quel lien avec Google? Ne possède t-il pas son propre système de captcha?

Le lien c'est Google Books , dont wikipédia donne la définition suivante :


"Google Books est un service en ligne permettant d'accéder à des livres numérisés. Anciennement appelé Google Print, le début de la numérisation des livres a été annoncé par Google en décembre 2004. Disposant de moyens considérables, cette bibliothèque virtuelle comptait plus de sept millions de livres en novembre 2008[1]. Google numérise des livres provenant de nombreuses universités américaines et de tout horizon pour ensuite les diffuser sur ses serveurs. Droits d'auteurs obligent, certains ne sont que partiellement publiés. Pour le moment, les livres imprimés entre 1839 et 1922 sont rarement accessibles en entier pour les internautes basés hors des Etats-Unis."

Depuis le service s'est tout de même internationalisé et des livres du monde entier sont en train d'être numérisés pour rejoindre la bibliothèque google!

Des accords sont en cours de préparation avec des bibliothèques françaises et notamment celle de la ville de Lyon pour que google numérise gratuitement leurs collections!

Quand on sait que la numérisation de la seule Bibliothèque de Lyon représenterait un coût de 60 000 000€, on comprend qu'avec un système de crowdsourcing comme Re-captcha Google peut voir là un moyen efficace d'économiser de l'argent à longs termes.


Hazard ou pas, c'était justement le sujet d'un petit reportage sur le JT de france 2 ce soir même! Je me suis donc débrouillé pour vous le récupérer (la qualité est moyenne mais c'est regardable).






Se faisant, Google veut intelligemment assoir sa position dominante comme porte d'accès à l'information en ligne.


Ce billet vous à plu? Pensez à vous abonner au flux RSS et à voter sur Wikio (bouton en bas)


Bookmark and Share






4 commentaires:

riendutout a dit…

Un article apportant des informations complémentaires sur les différents opposants Google et les éditeurs est paru aujourd’hui sur NetEco http://www.neteco.com/300200-google-books-reviser-accord-auteurs-authos-guild.html

riendutout a dit…

Une info encore plus folle : Google compte même se lancer sur le marché du livre imprimé :

http://www.businessinsider.com/google-goes-into-the-book-printing-business-2009-9

riendutout a dit…

Google un concurrent du service Kindle d'Amazon ? http://bit.ly/48Xzik

riendutout a dit…

Le ministre français de la culture vient de lancer une réflexion sur ce thème, comme expliqué dans l'article : avec ou sans Google la france numérisera

Related Posts with Thumbnails

Derniers Commentaires