Articles

Web 2.0 - La puissance est dans les données

La puissance est dans les données

Toutes les applications web d'importance sont liées à une base de données spécialisée : la base d'exploration Google, l'index de Yahoo, la base de produits Amazon, la base d'utilisateurs d'eBay, la base de cartes de MapQuest, la base de chansons disponibles de Napster. Comme me le signalait Hal Varian l'année dernière, « le SQL est le nouveau HTML ». La gestion de base de données est le coeur de métier des sociétés du web 2,0, à tel point qu'on donne parfois à leurs applications le nom d' « infoware » plutôt que software (ndt : « infogiciel » plutôt que logiciel).

Ces faits m'amènent à ce qui est pour moi la question centrale : qui possède les données ?

Dans l'univers d'internet, on a déjà voir pu un certain nombre de cas dans lesquels le contrôle des données amène dans un premier temps la domination du marché puis le profit. Le monopole sur l'enregistrement des noms de domaine qu'un décret gouvernemental (ndt : il s'agit bien sûr du gouvernement des Etats-Unis) avait offert à Network Solutions (plus tard repris par Verisign) fut par exemple l'une des premières sources de revenus de l'Internet. Puisque nous avons vu que l'avantage stratégique du contrôle des API n'avait plus vraiment de sens sur le web, cela signifie que l'élément de domination des marchés se trouve dans les données. C'est d'autant plus vrai lorsqu'elles sont difficiles à créer et susceptibles d'être entretenues par un réseau d'utilisateurs.

Regardez les licences d'utilisation de la base de données sur chaque carte servie par MapQuest, , maps.yahoo.com, maps.msn.com, ou maps.google.com, et vous verrez "Maps copyright NavTeq, TeleAtlas," ou avec le nouveau satellite d'imagerie, "Images copyright Digital Globe." . Ces sociétés ont fait des investissements considérables dans leurs données (NavTeq dit investir chaque année 750 millions de dollars dans leur base d'adresses et de directions. Digital Globe a dépensé 500 millions de dollars pour lancer son propre satellite et améliorer l'imagerie basée sur les satellites gouvernementaux). NavTeq est allé si loin pour imiter Intel que cela se retrouve jusque dans leur logo : les voitures embarquant des systèmes de navigations portent en effet l'inscription « NavTeq Onboard » (ndt : à comparer avec le fameux « Intel Inside »). Les données sont bel et bien le nouvel « Intel Inside », le composant essentiel de systèmes dont l'infrastructure est largement open source ou tout du moins collaborative.

La situation d'Amazon est cependant plus contrastée. Tout comme ses concurrents (BarnesandNoble.com par exemple), sa base de données d'origine provient du fournisseur de registre ISBN RR Bowker. Mais à la différence de MapQuest, Amazon améliore sans cesse ses données, en ajoutant du contenu provenant des éditeurs par exemple. Plus important encore, ils encouragent les utilisateurs à évaluer les données, de telle sorte qu'après 10 ans, c'est Amazon et non plus Bowker, qui est devenu la référence en matière ressources bibliographiques pour les universitaires et les libraires. Amazon a aussi introduit son propre système d'identifiant, le « ASIN », qui correspond à l'ISBN lorsqu'il est présent et crée un code équivalent lorsqu'il n'existe pas. En un mot, Amazon s'est véritablement doté d'une politique de gestion des données mais aussi des fournisseurs de celles-ci.

Imaginez que MapQuest ait fait la même chose : amener les utilisateurs à évaluer les cartes, ajouter d'autres niveaux d'informations. Il aurait certainement beaucoup plus difficile pour ses adversaires d'entrer sur le marché simplement en achetant une licence à un fournisseur de données.

L'arrivée récente de Google Maps fait de ce marché un véritable laboratoire de la compétition entre la vente d'applications et la vente de données. Le modèle de service léger de Google conduit à la création de nombreux services sous la forme de « mashups » reliant Google Maps avec d'autres services de la toile. Housingmaps.com de Paul Rademacher, qui combine Google Maps avec les données de Craiglist pour créer un outil de recherche de logement interactif est un excellent exemple de ces possibilités.

Evidemment, ces mashups ne sont pour le moment que des expérimentations mais les premiers projets professionnels devraient bientôt suivre. Malgré tout, on peut déjà dire que pour une partie des développeurs, Google a pris la place de Navteq en tant que fournisseur de données en se plaçant en tant qu'intermédiaire privilégié. On peut s'attendre à voir les premières batailles entre fournisseurs de données et fournisseurs de logiciels éclater dans les années qui viennent, quand tous auront compris l'importance des données dans l'univers web 2.0.

La course pour la possession de données stratégiques a déjà commencé : positionnement, identités, calendriers d'événements, identifiants de produits... Dans bien des cas, là où il y a un coût pour construire une base de données, il y a l'opportunité de créer un support pour des services à valeur ajoutée avec une source unique de données. Souvent, le gagnant sera la société qui atteindra la première une masse critique de données par agrégation des utilisateurs et convertira cet avantage en services.

Dans le domaine de l'identité par exemple, Paypal, 1-click d'Amazon et les millions d'utilisateurs des systèmes de communication peuvent tous sembler légitimes pour construire une base de données d'identités à l'échelle du réseau (dans cette optique, la récente tentative de Google d'utiliser les numéros de téléphones en tant qu'identifiants dans les comptes Gmail est peut-être une étape vers l'intégration des téléphones). Pendant ce temps, des start-up comme Sxip explorent le potentiel d'identités fédérés, dans la quête d'une sorte de « 1-click distribué » qu'apporterait un sous-système du web 2.0 dédié à l'identité. Dans le domaine des calendriers, EVDB est une tentative de construire le plus grand calendrier partagé du monde à partir d'un système de participation de type wiki. Bien que le juge de paix reste le succès d'une approche ou d'une start-up particulière dans le domaine, il est clair que les standards et les solutions dans ces domaines qui sauront transformer des données brutes en des sous-systèmes de confiance du « système d'exploitation internet » rendront possibles une nouvelle génération d'applications.

Un autre point d'importance doit être précisé au sujet des données : les aspects de confidentialité et de droit des utilisateurs sur leurs données. Dans la plupart des premières applications web, le copyright n'était appliqué que de manière très approximative. Amazon, par exemple, dit respecter les droits de auteurs des critiques faites sur son site mais en l'absence d'application concrète, n'importe qui peut recopier une critique et la reposter ailleurs. Cependant les sociétés ayant pris conscience que le contrôle des données est un avantage stratégique décisif, on peut s'attendre de leur part à une réaction sur le sujet.

Comme la montée du logiciel propriétaire a conduit au mouvement du logiciel libre, il est envisageable de voir le mouvement « des données libres » s'opposer peu à peu à l'univers des données propriétaires. On peut en voir les premiers signes dans des projets ouverts comme Wikipedia, la licence Creative Commons ou encore dans des projets tels que GreaseMonkey qui permet à l'utilisateur de s'approprier un peu plus les données envoyées par les pages web en en contrôlant l'affichage.