La protection des données de bout en bout

Les stratégies de protection des données méritent une attention particulière. Au sein des datacenters, quelles approches faut-il mettre en place pour garantir la continuité de service ? Comment s’assurer que celles-ci sont les mieux adaptées aux enjeux ? Quel rôle peuvent jouer les systèmes de stockage dans la protection des données ?

Quelle entreprise pourrait fonctionner sans ses données ? Contacts clients, suivi des commandes, des ventes ou des stocks, gestion de la production ou des services, R&D, e-commerce : la plupart des informations nécessaires à ces activités sont désormais stockées sous forme immatérielle, constituant l’un des actifs les plus précieux, mais aussi les plus sensibles de l’entreprise.

Les risques mettant en jeu la pérennité et l’intégrité de ces données sont nombreux, aussi celles-ci sont généralement sauvegardées dans des datacenters. A ces menaces s’ajoutent pour l’entreprise les conséquences d’une indisponibilité pouvant aller jusqu’à entraîner une interruption majeure de service, faisant des centres de données un point névralgique dans les plans de continuité d’activité.

Les entreprises doivent aujourd’hui faire face à un ensemble de transformations rapides, tant dans leur environnement que dans les usages, les pratiques de travail ou les technologies. En matière de protection des données, ces changements complexifient notablement la gestion des datacenters et peuvent remettre en question les approches existantes en matière de stockage.

  • Des volumes de données en forte hausse

Le premier de ces enjeux est sans conteste la croissance très rapide des données, notamment les données non structurées : emails, documents multimédias, images, PDF… Dans ses travaux sur le Big Data, le cabinet de conseil McKinsey & Company prévoit ainsi 40 % de croissance globale des données chaque année [1]. Conséquence directe, celles-ci occupent de plus en plus de place dans les espaces de stockage. Une étude de l’Enterprise Strategy Group [2] estime ainsi que 74 % de la totalité de la capacité archivée en 2015, soit 226 716 Po, sera constituée par du contenu non structuré basé sur des fichiers.

Pour faire face à cette hausse, les entreprises cherchent en premier lieu à étendre la capacité de stockage dont elles disposent. Ainsi, dans un article publié sur Wikibon [3], Michael Versace et Gary MacFadden, spécialistes de la gestion de l’information, observent que, chaque année, les entreprises augmentent de 50 % ou plus leurs capacités de stockage pour répondre à la croissance des données non structurées.

Néanmoins, ceci a un coût. Or, toujours selon McKinsey & Company, la croissance prévue pour les dépenses globales informatiques n’est que de 5 %. Chaque investissement nécessaire devra donc être réellement justifié.

Pourtant, certains constats montrent que ce n’est pas le cas à l’heure actuelle et que la capacité existante n’est pas toujours utilisée de manière optimale. Les deux experts de Wikibon pointent ainsi que « 50 % ou plus des données non structurées sont stockées plus longtemps que nécessaire pour les besoins de l’entreprise dans une optique de gouvernance, gestion des risques et conformité ».

Ils relèvent également que les taux de duplication pour les données non structurées s’élèvent jusqu’à 20/1, la capacité disponible étant alors consommée inutilement pour stocker des données redondantes.

  • Une virtualisation qui complique la donne

La virtualisation des serveurs marque un tournant important pour les datacenters. La consolidation de plusieurs serveurs virtuels sur une même machine physique contribue en effet à réduire les coûts, en optimisant l’utilisation des ressources existantes. Pour ces raisons, ces technologies vont continuer de s’étendre.

Fin 2011, le nombre moyen de machines virtuelles consolidées sur un hôte physique était de 5,1 [4] selon l’enquête V-Index. Selon le cabinet d’études Gartner, près de 90% des entreprises ont des projets de virtualisation [5] et 60% de l’ensemble des nouvelles charges de travail des serveurs sont virtualisées [6]. Si cette tendance se poursuit [7], la virtualisation des serveurs X86 va doubler, passant de 40 % en 2011 à 80 % en 2016.

Malgré les avantages de la virtualisation, quelques facteurs en ralentissement l’adoption. Parmi ceux-ci figurent notamment les problèmes liés à la sauvegarde et à la restauration, cités par 33 % des entreprises du V-Index. Un constat appuyé par un sondage de Computerworld, dans lequel « 27 % des administrateurs signalent que la virtualisation des serveurs a rendu la sauvegarde et la reprise après sinistre compliquées » [8].

Selon cette enquête, la virtualisation met en effet en évidence les limites des approches traditionnelles du stockage et de la sauvegarde, entraînant goulets d’étranglements lors des accès aux disques et problèmes de performance.

Ces problèmes peuvent être évités en adoptant une infrastructure de stockage flexible et facilement extensible, voire un réseau de stockage lui-même virtualisé, dans lequel l’ajout de capacité s’effectue de manière transparente pour les utilisateurs.

  • S’adapter au cloud computing et à l’essor de la mobilité

Sur le plan des usages, le travail nomade en plein essor, la mondialisation et la hausse des applications mobiles et cloud font sortir les données des limites physiques de l’entreprise. Cette multiplication des points d’accès aux données vient s’ajouter aux facteurs précédents pour compliquer la tâche des administrateurs de centres de données.

Les analystes d’IDC estiment ainsi qu’il y aura 1,3 milliard de travailleurs mobiles en 2015, soit 37,2 % de la totalité des salariés contre 32 % en 2010 [9]. Ils prévoient également qu’à l’horizon 2017 les livraisons de périphériques intelligents connectés (incluant à la fois smartphones, tablettes et PC) dépasseront les  2,2 milliards d’unités dans le monde. [10]

Dans le même temps, près de 74 % des entreprises permettent à leurs salariés une utilisation de type BYOD (Bring Your Own Device) et près de quatre projets de développement contre un concernent des applications mobiles [11].

La sauvegarde des données gérées dans ces environnements mobiles se heurte, elle aussi, à des difficultés liées notamment aux réseaux. Dans une étude de l’Enterprise Strategy Group, 30 % des organisations évoquent ainsi les défis posés par la disponibilité réseau pour la sauvegarde des bureaux distants [12]. Dans ce contexte, les politiques de sauvegarde doivent également être adaptées afin de ne pas consommer inutilement de la bande passante et d’entraver les performances des applications.

  • Une diversité de cas source de complexité

Dans ce contexte, DSI et responsables de centres de données sont aujourd’hui confrontés à une multiplicité de cas d’utilisations. Ils doivent gérer un datacenter principal et des sites secondaires, mais aussi prévoir la sauvegarde des données saisies depuis les bureaux distants, les succursales implantées à l’étranger ou les terminaux mobiles.

Dans le même temps, ils rencontrent des défis majeurs : alors que le volume de données augmente sans cesse, ils doivent réduire le risque de perte de données et d’indisponibilité des applications, se conformer aux exigences et aux niveaux de services requis par les plans de reprise d’activité et de continuité d’activité, tout en réduisant les coûts d’infrastructure.

Cette complexité accrue révèle les limites des systèmes existants :

– fenêtres de sauvegarde manquantes,

– limitation de la bande passante,

– complexité de gestion,

– difficultés à mettre en place une infrastructure redondante…

Actuellement, ce sont encore 1/5 des travaux de récupération qui échouent selon l’Enterprise Strategy Group [13].

  • Le rapport risques/coûts, essentiel pour établir une stratégie

Toujours selon l’Enterprise Strategy Group, 53 % des organisations subiraient des pertes de revenu importantes ou d’autres conséquences négatives si le temps d’inactivité des données de niveau 1 excédait une heure.

Néanmoins, toutes les données n’ont pas la même criticité : c’est donc l’impact de leur perte ou de leur indisponibilité temporaire sur le métier de l’entreprise qui devrait guider les choix en matière d’infrastructure. Pourtant, malgré la diversité des cas et des niveaux de risques, beaucoup d’approches en matière de protection des données sont encore calquées sur un modèle unique, le même quel que soit le contexte.

Dans un livre blanc [14], Russ Fellows, Associé senior de l’Evaluator Group expose ainsi les défauts de telles approches : « Nombreuses sont les personnes qui tentent de simplifier le processus et appliquent simplement une stratégie globale sur l’ensemble de leur entreprise. Nous protégeons tout plus ou moins de la même façon, mais ça ne fonctionne pas. Cela signifie probablement que vous sous-protégez certains blocs de données et en surprotégez d’autres. Cela peut vous coûter beaucoup, puisque vous investissez trop pour des choses que vous n’aviez pas besoin de protéger ou au contraire, en sous-protégez d’autres. »

Soucieuses de leur efficacité et de leurs performances, les entreprises ne peuvent plus aborder la protection des données de manière monolithique. Elles doivent donc établir une stratégie de protection basée sur une analyse fine de leurs besoins et des risques encourus, afin de trouver la solution répondant au meilleur rapport coût/risques.

Selon David Vellante, expert de Wikibon, « il y a deux points fondamentaux à prendre en considération lors de la mise en place d’une capacité de sauvegarde et de récupération anti-échec : à quelle vitesse l’organisation a-t-elle besoin de récupérer ses données et quel volume de données peut-elle se permettre de perdre ? Le défi consiste à trouver l’équilibre entre la protection/récupération des données et le volume d’investissement nécessaire. » [15]

Pour effectuer ces arbitrages, deux indicateurs s’avèrent précieux : le RPO (voir glossaire), qui mesure la perte de données maximale que l’entreprise peut se permettre, et le RTO le délai maximal pour restaurer un service en cas d’interruption.

Comme le montre le graphique ci-dessus, plus les délais souhaités pour les RPO/RTO sont courts, comme cela peut être le cas pour des applications fortement transactionnelles et très stratégiques, plus les dépenses pour les atteindre sont élevées. En revanche, lorsque ces délais sont élevés, le risque de perte de données ou de temps d’inactivité du système s’accroît d’autant.

La solution idéale égale ou dépasse les besoins en RPO/RTO pour des dépenses n’excédant pas la valeur des biens ni le coût du temps d’inactivité.


[1] McKinsey & Company, « Big data: The next frontier for innovation, competition, and productivity », mai 2011

[2] Enterprise Strategy Group, « Understanding the NAS Market », Terri McClure, août 2011

[3] Wikibon, « Information Management meets Compliance », Michael Versace et Gary MacFadden, février 2010

[4] V-Index.com, 3e trimestre 2011

[5] Gartner Inc., « Virtualization Improves IT Functions and Processes », Philip Dawson, 28 septembre 2011)

[6] Gartner Inc., « Best Practice: Virtualize Your IT Systems Incrementally to Reduce Costs ». Philip Dawson, 23 septembre 2011

[7] Gartner Inc., « Virtualization Key Initiative Overview », Philip Dawson et Chris Wolf, 22 juillet 2011

[8] Computerworld, “Storage vexations of server virtualization” par Stacy Collett, 11 octobre 2011.

[9] IDC, « Worldwide Mobile Worker Population 2011-2015 Forecast », décembre 2011

[10] IDC, « Smart Connected Device Tracker », mars 2013.

[11] Mark Fidelman, « The Latest Infographics: Mobile Business Statistics for 2012 », Forbes, 2 mai 2012

[12] Enterprise Strategy Group, « Remote Office/Branch Office Network Trends », Bob Labiberte et Jennifer Gahm, avril 2012

[13] Enterprise Strategy Group, « The Modernization of Data Protection », Jason Buffington, Bill Lundell et al, avril 2012

[14] Russ Fellows, Senior partner Evaluator Group, “Data Backup Strategies on the Horizon” mai 2012

[15] David Vellante, Wikibon, « Implementing fail proof backup and recovery » janvier 2009