En 2012, l’explosion des volumes de données n’est plus une hypothèse lointaine mais bien une réalité. Ainsi, selon le cabinet d’études américain IDC, dans son étude de référence « Extracting Value from Chaos » réalisée pour EMC, 1,8 zettaoctets de données, soit 1 800 milliards de gigaoctets, ont été créées et répliquées en 2011 : c’est neuf fois plus qu’en 2005, et cette croissance ne va pas ralentir. En effet, d’ici la prochaine décennie, IDC estime que la quantité de données gérée par les entreprises pourrait être multipliée par cinquante et la taille des fichiers par 75.
Ce phénomène du big data concerne aussi bien les particuliers, à l’origine de 75% des informations numériques, que les entreprises et les organisations publiques, qui ont des responsabilités sur près de 80 % de ces données. Pour cette raison, les entreprises investissent massivement dans les données : toujours selon le cabinet IDC, les investissements consentis par les entreprises dans l’« univers numérique » (cloud computing, équipement informatique, logiciels, services et personnel dédié à la création, la gestion, le stockage et l’exploitation des informations) ont augmenté de 50 % entre 2005 et 2011, pour atteindre les 4 000 milliards de dollars au niveau mondial.
Selon le cabinet de conseil Deloitte, dans son étude « Technology, Media & Telecommunications Predictions, en 2012 90% des sociétés du classement Fortune 500 auront lancé un grand chantier de gestion des données. D’après McKinsey, les entreprises américaines de plus de mille salariés stockent d’ores et déjà, en moyenne, l’équivalent de 235 teraoctets de données. Selon Gartner, à l’horizon 2016, le volume de terabytes installés par les entreprises aura augmenté de 850 % par rapport à 2011.
Virtualisation totale
Dans le même temps, l’informatique d’entreprise se virtualise : applications, serveurs, postes de travail, réseau, toutes les ressources deviennent disponibles à la demande, assurant une meilleure continuité des activités et facilitant la maîtrise des coûts… Le stockage est le dernier maillon de la chaîne : pour que les organisations puissent exploiter tout le potentiel de la virtualisation, il doit être accessible de manière transparente, unifiée et immédiate, aussi bien depuis les environnements physiques que virtualisés.
Enfin, l’analyse prédictive, qui s’appuie sur des algorithmes statistiques avancés pour détecter et prévoir certaines évolutions, se développe dans de nombreux domaines notamment le marketing, l’analyse de risques, la maintenance prévisionnelle ou l’évaluation de la qualité. Ce type d’application nécessite de gros volumes de données, qui doivent pouvoir être chargés rapidement et facilement dans des outils spécifiques.
Potentiellement, tous les secteurs d’activité peuvent être concernés. Néanmoins, les enjeux du big data se posent de manière plus accrue dans certains domaines :
- Ainsi, les entreprises et des organisations de la culture et des médias sont confrontées depuis plusieurs années déjà à la numérisation massive des contenus et à de nouveaux formats multimédias de haute définition.
- Dans leurs activités de recherche, industriels et organismes publics doivent composer avec des appareils de mesure toujours plus avancés, qui produisent des volumes considérables de données brutes. Bio-informatique, exploration pétrolière, exploitation des résultats de simulations numériques nécessitent toujours plus de ressources, à la fois pour les traitements et le stockage. Par ailleurs, la réutilisation des données est en augmentation, ce qui nécessite de conserver plus longtemps celles-ci en ligne.
- Le Accompagner l’explosion des volumes de données : les nouveaux enjeux du stockage, notamment les collectivités locales, s’engage de plus en plus dans des démarches d’ouverture des données publiques (open data) qui impliquent de mettre à disposition du public des masses de données, le tout de manière fiable et performante.
- Le Accompagner l’explosion des volumes de données : les nouveaux enjeux du stockage a besoin d’effectuer des analyses complexes impliquant de multiples paramètres, le tout dans des délais très courts, ce qui nécessite de très hauts niveaux de performances. Soumis à de nombreuses réglementations, il doit en outre assurer l’intégrité des données stockées.
- Des industries comme les Accompagner l’explosion des volumes de données : les nouveaux enjeux du stockage cherchent de nouvelles sources de développement du côté des smart grids, ces réseaux intelligents dotés de capteurs pour s’adapter en temps réel aux besoins et aux contraintes de leur environnement. Ces capteurs génèrent là encore des quantités de données brutes, qui peuvent être conservées pour améliorer la compréhension de la demande et les performances des services.
- Enfin, le Accompagner l’explosion des volumes de données : les nouveaux enjeux du stockage est marqué par l’essor du cloud computing: hébergeurs, intégrateurs, éditeurs offrant des services de type SaaS (Software-as-a-Service), PaaS (Platform-as-a-Service) ou IaaS (Infrastructure-as-a-Service) doivent offrir à leurs clients des services de stockage fiables et sécurisés.
L’évolutivité prend le pas sur la capacité pure
Dans ce contexte, les responsables du stockage ont un rôle essentiel : ils sont chargés de gérer la disponibilité, l’accessibilité et la sécurité des données, un actif de valeur stratégique pour les organisations. Ils doivent provisionner, migrer, protéger et rendre accessibles des quantités de plus en plus importantes de données, ce qui amène de nouvelles exigences.
En termes de stockage, cette multiplication des données fait ressortir les limites des systèmes classiques et impose une réévaluation des besoins. Le big data met en particulier l’accent sur la capacité des infrastructures à accompagner cette croissance ultra-rapide des informations. L’évolutivité devient un critère primordial pour les responsables informatiques, pour qui il est de plus en plus difficile de prévoir précisément de quelle capacité leur entreprise aura besoin demain.
Dans le même temps, les directions informatiques sont confrontées à des exigences toujours plus fortes pour réduire les coûts. Dans une étude réalisée en juin 2010 par l’Enterprise Strategy Group, 54% des responsables interrogées considèrent ainsi la réduction des coûts opérationnels comme une de leurs priorités, et 30% placent également la réduction des coûts d’investissement parmi leurs objectifs. En 2012, ce besoin de réduction des coûts figurent en bonne place dans l’agenda des DSI : le CIO Survey publié début 2012 révèle que la réduction des coûts figure parmi les trois priorités des DSI.
Pour ces raisons, les entreprises cherchent à optimiser leurs systèmes de stockage, en maximisant son utilisation, en diminuant l’énergie consommée et en réduisant la charge nécessaire à leur gestion. Des tâches classiques comme la gestion des numéros d’unités logiques (LUN) ou l’ajout de disques sont en effet coûteuses en temps, apportent peu de valeur additionnelle à l’entreprise et certaines peuvent même entraîner des interruptions de service.
Enfin, l’augmentation du nombre de données s’accompagne d’une exigence accrue en matière de performances et de fiabilité : les directions métiers demandent à ce que les données soient accessibles toujours plus rapidement et pendant des durées plus longues, mais elles doivent également être sécurisées et protégées, en particulier lorsqu’il s’agit de données sensibles. Ces enjeux peuvent remettre en cause certains choix d’architectures associés aux technologies emblématiques du big data, et notamment Hadoop, conçues pour l’analyse de très gros fichiers de données structurées et non-structurées.