L'avènement du Big Data: une (r)évolution ?

Big Data. L'expression, fut sans nul doute le slogan des années 2011-2012 et sera celui de l'année 2013 dans la Silicon Valley.

Il est difficile de contester la complexification de nos sociétés modernes : mondialisation, croissance continue d’une population dont les besoins intrinsèques augmentent, amélioration globale des niveaux de vie et d’éducation. Dans ce paradigme évolutif, les organisations humaines (institutions, communautés, entreprises) sont aujourd’hui contraintes de s’appuyer sur des méthodes innovantes d’analyse des données pour rester réactives, adaptatives, rigoureuses et précises dans l’accomplissement des tâches qui leur sont affectées. Le volume de données produit et à traiter par ces acteurs ne cesse d’augmenter. Si le constat n’est pas récent, la multiplication des appareils interconnectés et l’accès à Internet à tous et à tout instant rend l’analyse de ces informations hétérogènes très complexe. Ainsi, une entreprise doit être capable de réagir rapidement aux besoins mouvants du marché, à ses signaux trompeurs, à ses évolutions comme à ses crises. Les milliards de données transitant par les consommateurs sont une formidable source d’information permettant de mieux cibler les segments de clientèle et les évolutions d’un secteur d’activité (par exemple, différencier un buzz d’une tendance de marché réelle à moyen terme), mais aussi de suivre l’évolution de ses concurrents. Dans un autre contexte, les pouvoirs publics sont aujourd’hui fortement sollicités pour fournir une information de qualité au plus grand nombre, tout en démultipliant les services rendus possibles par l’avènement des Technologies de l’Information et de la Communication (TIC) : bienvenue dans l’ère du Big Data !

Définition

Big Data. L’expression fut sans nul doute le slogan des années 2011-2012 et sera celui de l’année 2013 dans la Silicon Valley. Elle a été introduite par le cabinet d’études Gartner en 2008. Elle fait référence à l’augmentation sans précédent du volume de données échangées dans nos sociétés, à l’hétérogénéité de leur nature et de leur source. Dans ce contexte, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être reconsidérés. Ainsi, depuis l’explosion des télécommunications à la fin des années 1990, la quantité d’informations échangées en continu n’a jamais cessé de croître, dépassant toutes les prévisions. Le développement massif du web (deux milliards d’internautes dans le monde en 2012) y a largement contribué. L’avènement plus récent de l’Internet des objets (appareils connectés aux réseaux de télécommunication tels que les smartphones, ordinateurs, tablettes, capteurs en tout genre) va fortement accentuer cette tendance. Aujourd’hui, la fusion des réseaux de télécommunication avec les réseaux énergétiques physiques (électriques notamment) dits « intelligents » ouvre la porte à de nombreuses applications : essor du véhicule électrique, appareils électroménagers connectés capable de demand response, intégration des énergies renouvelables, interface et offre de services clients, analyse des usages, etc.

Quels défis ?

Les challenges du Big Data pourraient se résumer en quatre V : Volume, Variété, Vélocité et Visualisation.

Le volume : le challenge est de taille car la tendance du « toujours plus de données » s’est fortement accentuée en raison d’un coût du stockage générique en chute libre depuis plusieurs années, couplé au formidable boom des technologies de l’information et de la communication. Ainsi, Facebook héberge 40 milliards de photos tandis que Walmart gère sur le territoire américain plus d’un million de transactions client par heure, alimentant des bases de données estimées à plus de 2,5 peta-octets (250). D’ici à 2013 la quantité annuelle de données transférées sur le web devrait atteindre 667 exa-octets (260). Mais où commence le Big Data ? Les avis divergent. Selon Mike Driscoll, le CEO de Metamarkets, « si vos données tiennent dans une feuille Excel, vous avez du Small Data. Si une base de données MySQL est suffisante, on parle de Medium Data. En revanche, si vos données sont réparties sur plusieurs serveurs ou plusieurs machines, vous y êtes : les problématiques à traiter relèvent du Big Data ! ». Cependant, Cisco soulève un problème majeur : le volume de données échangées augmente bien plus rapidement que la capacité du réseau qui les fait transiter. Des nouvelles solutions de stockage des données en ligne commencent à se développer. Des sociétés comme Amazon, AT&T, IBM, Google, Yahoo ou AppNexus multiplient des offres de Cloud Computing et soulagent les entreprises en capacité tout en leur proposant une palette de services associés. Pike Research s’attend à ce que la croissance des revenus du Cloud Computing continue au rythme d’environ 30% par an, avec un marché augmentant de 46 milliards en 2009 à 210 milliards en 2015 ;
La variété : avec des sources de données de plus en plus nombreuses (internet, objets connectés, capteurs, etc.), il existe une forte hétérogénéité au sein des données collectées. Le besoin de structurer les informations est donc essentiel ;
La vélocité : l’obligation de prendre des décisions rapides et pertinentes est un gage de succès (et de survie économique !). Les outils d’aide à la décision basés sur l’exploitation des données doivent donc être les plus performants et efficaces possibles ;
La visualisation : si la quantité d’information disponible en entrée est gigantesque, le résultat de leur traitement en sortie doit être clair et concis au risque de ne pas être utilisé.

Deux défis complémentaires ont attrait à l’accessibilité et à la disponibilité de l’information. Les données sont souvent dispersées dans des silos et il est peut être difficile de les rassembler pour en avoir une vision claire, fiable et centralisée. Aussi performants que soient les algorithmes d’analyse, une déficience quantitative ou qualitative des données peut induire des résultats lacunaires voire erronés.

Quelle valeur ajoutée ?

Les organisations de toutes natures ont pris conscience de la valeur des données qu’elles possèdent, et comment leur utilisation peut les différencier, leur permettre d’approfondir leurs connaissances ou d’améliorer leur efficience structurelle. Par le biais d’outils d’analyse de plus en plus sophistiqués, l’idée centrale est bien le traitement de plusieurs milliards de données afin de dénicher l’information pertinente qui permettrait de prendre la bonne décision. Par exemple, les données générées par un consommateur sont une source précieuse pour les services marketing qui peuvent ensuite personnaliser leur publicité.

L’intérêt d’analyser ces données ne se cantonne pas au monde des affaires, où le souci de performance, de compétitivité et de rang sur les marchés est le principal moteur. Les données collectées par les organismes publics sont également au coeur du phénomène. Par souci de transparence envers ses citoyens, les pouvoirs publics sont encouragés à mettre à leur disposition l’information qu’ils détiennent. Les organismes étatiques trouvent un fort intérêt à ce partage, qui stimule par la même occasion la créativité et l’innovation. Les citoyens et les entreprises peuvent exploiter les données disponibles pour créer de nouveaux services (applications mobiles, web).

Quelques exemples :

La numérisation de la médecine pourrait à terme faciliter le diagnostic des médecins et le traitement des patients, tout en optimisant les coûts ;
Les données institutionnelles et publiques sont de plus en plus utilisées pour améliorer l’efficience fonctionnelle des villes : Cisco a annoncé début décembre son association avec la Startup Streetline pour s’attaquer à la gestion des places de parking à San Francisco en temps réel ;
Du côté des industriels, General Electric a annoncé début décembre plus d’un milliard d’investissements à moyen terme afin de proposer des solutions Big Data à ses clients ;
Imaginez le nombre de données nécessaires à la construction d’un Airbus A380, ou d’une turbine à gaz de centrale thermique !
La réflexion orientée service est l’un des paradigmes fleurissants des technologies de l’information, en lien avec de nombreuses autres disciplines comme les opérations, la comptabilité et la finance.

Quel marché ?

L’information est un enjeu stratégique de premier ordre : la collecte et le traitement des données font l’objet de plus en plus d’investissements. Le marché de la gestion et de l’analyse de données est actuellement estimé à plus de 100 milliards de dollars et croît de près de 10% par an, soit environ deux fois plus vite que le marché global des logiciels. Selon Gartner Research, le Big Data sera à l’origine de la création de 4,4 millions de postes dans l’industrie des TICs à travers le monde d’ici à 2015, et plus de 1,9 million aux Etats-Unis. La thématique est souvent citée comme l’une des priorités par les investisseurs de la Silicon Valley. De ce fort potentiel économique est née une course sans précédent aux algorithmes de gestion les plus innovants et les plus efficaces : creusets d’innovation et de savoir (notamment mathématique et informatique), les universités californiennes comme UC Berkeley et Stanford s’attaquent à ces défis. En matière de possession de données et de potentiels d’investissements – notamment dans la recherche, les majors comme Amazon, Google ou Facebook sont de manière logique les acteurs principaux du Big Data. En parallèle, les startups fleurissent en proposant des logiciels, des plateformes et des services de gestion de données surfant sur cette philosophie. Dans la Silicon Valley, Platfora, Continuuity ou Metamarkets tirent par exemple leur épingle du jeu.

Le Cloud Computing

Cloud et Big Data sont deux éléments indissociables. Aujourd’hui, les majors IBM, Google, Yahoo ou AppNexus proposent tous des services de Cloud Computing. Le NIST (National Institute of Standards and Technology) définit le Cloud Computing comme un modèle permettant un accès réseau pratique et à la demande à une famille de ressources informatiques partagées par tous (par exemple, des serveurs, des réseaux, du stockage, des applications, etc.) qui peuvent être rapidement mobilisées ou libérées en utilisant des efforts minimaux de gestion ou d’interaction avec le fournisseur de service. Le Cloud Computing permet, entre autres, de développer des modèles de gestion et d’optimisation, de services par répartition (du type « Pay-as-you-Go »), des solutions de stockage et une offre dynamique. La disponibilité de la ressource est très élastique, les puissances de calcul disponibles et l’espace de stockage étant théoriquement infinis. Pas de Cloud sans transit des données, pas de Big Data sans Cloud !

Conclusion

Si le Big Data est souvent présenté comme un formidable outil, plusieurs dérives inquiètent cependant les citoyens et les pouvoirs publics : information personnelle difficile à gérer en matière de confidentialité, problématiques de sécurité des données financières et stratégiques. Les questions de cybersécurité accompagnent l’essor du concept : les débats publics, académiques et industriels se multiplient. Pike Research prévoit par exemple que le marché de la sécurité informatique estimé à 370 millions de dollars en 2012 atteindra les 610 millions en 2020. Ces défis mis à part, le potentiel offert par la disponibilité et l’accessibilité à cette foule de données – au moment où le monde se numérise à grande vitesse – reste un atout considérable pour le monde moderne.

Source : bulletins-electroniques.com

Découvrez les formations Techniques de l’Ingénieur :