Comment mettre en œuvre un plan de continuité d’activités

L’épidémie de coronavirus aura mis à l’épreuve de nombreux plans de continuité d’activités, pour les organisations qui en avaient prévu un, et révélé la nécessité d’en avoir un, pour celles qui auront expérimenté en « live » les conséquences de n’avoir pas investi en amont dans un tel dispositif.

I – Les enjeux

La dépendance des entreprises à l’égard du système d’information a historiquement augmenté. Au début des années 2000, seulement une entreprise sur deux assurait avoir une dépendance forte à l’égard de son SI, proportion qui a dépassé les 80 % au début des années 2010, selon le Clusif (Club de la sécurité de l’information français). Depuis, ce chiffre n’est plus publié, mais on se doute que l’on dépasse largement les 90 %, sans parler des entreprises Pure Players qui sont dépendantes à 100 % du Web et des infrastructures logistiques opérées par des tiers.

Hélas, les systèmes d’information peuvent être soumis à des chocs externes (pandémies, terrorisme, tremblements de terre, inondations, piratages…), mais aussi internes (erreurs, attaques internes, pannes…). Toutes les entreprises évoluent désormais dans un environnement de type VUCA, acronyme qui désigne les quatre caractéristiques auxquelles sont confrontées les entreprises : volatilité, incertitude (uncertainty), complexité et ambiguïté. Autrement dit, cet acronyme exprime le fait que les situations sont instables, pour des durées inconnues (volatilité), que leurs causes et leurs effets sont mal connus (incertitude), qu’il y a trop de parties prenantes (complexité) et que les relations causales sont elles aussi inconnues (ambiguïté).

D’où l’importance d’un plan de continuité d’activités (PCA) ou de services. Un PCA est un plan d’action écrit et complet, qui expose les processus et détermine les procédures organisationnelles, techniques et les systèmes nécessaires pour poursuivre ou rétablir la continuité du service d’une entreprise.

La disponibilité se définit comme la capacité d’un système d’information à pouvoir être utilisé à tout moment, en fonction des performances prévues. À tort, la disponibilité est perçue comme allant de soi, mais de nombreux exemples de rupture de performances, y compris concernant des acteurs du cloud, montrent que ce n’est pas le cas.

Si personne ne peut contester la nécessité de disposer d’un plan de reprise des activités, les entreprises françaises souffrent d’un étrange paradoxe. D’un côté, il est indéniable, et peu de dirigeants d’entreprises le contestent, que les systèmes d’information forment l’épine dorsale du fonctionnement opérationnel des entreprises et, de fait, de leur compétitivité. De l’autre, les réflexions et les actions engagées par ces mêmes dirigeants (et ceux qui ont la tâche de gérer au quotidien les systèmes d’information), pour garantir la disponibilité de ces ressources vitales, n’apparaissent guère probantes, même si cette posture va évoluer, suite à l’épidémie de coronavirus.

Comment expliquer un tel paradoxe entre le sentiment de dépendance et le sentiment de sécurité ? Plusieurs raisons peuvent être avancées. La première concerne un phénomène qui n’est pas propre à l’informatique, mais que l’on retrouve dans la plupart des problématiques de sécurité individuelle ou collective, comme par exemple les problèmes de sécurité routière ou de dépendance aux drogues : on sous-estime les risques et, parallèlement, on surestime sa capacité à réagir, phénomène classique en matière d’accidentologie et de victimologie.

La deuxième raison fait référence à la confiance dans la robustesse des technologies, sentiment qui reste très répandu parmi les managers et les dirigeants d’entreprises. La troisième raison tient à des comportements de management, notamment dans l’affectation de ressources pour anticiper des phénomènes dont la probabilité de survenance reste faible. Il s’agit d’un phénomène classique d’arbitrage budgétaire que l’on retrouve aussi en matière d’assurance individuelle. Certes, la conscience du risque progresse, mais il n’y a pas encore, aujourd’hui, de véritable identification entre le risque technologique et le risque business.

II – Comment faire ?

Les principaux fondamentaux de la gestion de la continuité d’activité sont les suivants :

  • Sensibiliser les décideurs (DG et managers).
  • Organiser (tableaux de bords de suivi) et préparer la cellule de crise décisionnelle.
  • Organiser la communication (direction de la communication entreprise).
  • Préparer les plans de continuité métier, logistique et informatique, en fonction des activités stratégiques définies dans la politique de sécurité.

La finalité d’un plan de continuité est de définir, de mettre en œuvre et de valider les procédures à suivre dans les cas de dysfonctionnement et d’interruption du système d’information : depuis une simple interruption de service (de quelques minutes à quelques heures) jusqu’à la catastrophe (arrêt pendant plus d’une semaine), en passant par la situation critique (une journée) et la panne sévère (entre une journée et une semaine).

L’intérêt d’établir une telle classification, selon le niveau de cette criticité, est double : elle permet, d’une part, d’obtenir un consensus dans l’entreprise vis-à-vis des conséquences des sinistres. Et, d’autre part, elle facilite l’activation du plan en fonction des types d’incidents.

Trois étapes sont indispensables pour parvenir à cette fin :

  1. une analyse des risques,
  2. un état des lieux,
  3. la construction d’un plan de continuité.

1. Analyser les risques

L’analyse des risques est liée à l’indisponibilité des systèmes d’information. Il s’agit de connaître le délai de reprise de l’activité informatique et télécoms et de répondre à plusieurs questions fondamentales :

  • Quelle est la perte de données admissible pour les métiers concernés par l’événement ?
  • Combien coûte cet arrêt non planifié ?
  • Quels moyens humains et financiers faut-il mobiliser pour revenir à l’état initial ?Sur le plan financier intervient la notion d’assurance, avec la question suivante : jusqu’à quel montant l’entreprise ou l’organisation est considérée comme son propre assureur ? Cela revient-il à déterminer le risque maximum tolérable ou admissible, pour la cible étudiée ?

On pourra ainsi avoir une idée plus précise du retour sur investissement. Pour l’évaluer, il convient de prendre en compte les investissements (matériels, logiciels, services, charges de travail) et les coûts récurrents (maintenance, licences, tests et exercices).

Déterminer le montant d’un sinistre et le délai de reprise repose sur une analyse de risques, par la méthode des scénarios. La méthode est inductive, elle part d’un cas particulier, le scénario, pour induire le coût de l’indisponibilité pour ce scénario, ainsi que le délai de reprise après sinistre avec les moyens techniques disponibles.

Le choix d’un bon scénario (sinistre total ou partiel) suppose que soient définis le périmètre, les objets (éléments techniques et financiers), ainsi que les causes (accidents, malveillance). S’il n’est possible d’établir que deux scénarios, pour des raisons de temps et d’argent, il faut privilégier les scénarios de sinistre total, afin de respecter le principe d’extension maximal du sinistre.

Les scénarios, qui doivent tous être crédibles, peuvent, par exemple, prendre en compte :

  • un arrêt du réseau,
  • la destruction d’une partie du datacenter,
  • le vol de données sensibles,
  • le départ de collaborateurs clés,
  • la défaillance d’un fournisseur de cloud,
  • une attaque virale.

Chaque scénario regroupe plusieurs éléments : les causes (accidents, malveillances, erreurs…), l’origine (interne, externe), les conséquences (financières et non financières, pertes directes et indirectes), ainsi que les risques d’extension. On intègrera également les modes de reprise de l’activité et le planning.

2. Auditer l’état des lieux

Cette étape permet de passer au crible les principaux critères de disponibilité et de traçabilité pour la cible concernée. En effet, un plan de continuité se définit sur la base d’un état des lieux précis pour la cible étudiée. Cet audit joue le rôle d’analyse des fondations pour bâtir le plan de continuité.

Des travaux préparatoires s’imposent donc pour pouvoir bâtir un plan de continuité techniquement correct, qui permettra un redémarrage dans le délai imparti par la direction générale, en fonction des contraintes métier et du coût de l’indisponibilité. Cette phase permet de disposer des conditions nécessaires pour pouvoir construire un plan de continuité : c’est le socle technique de base, des données, des moyens humains et techniques.
L’audit permet également de distinguer les différents niveaux de criticité pour les métiers. On peut ainsi retenir quatre niveaux :

  1. Le niveau stratégique correspond à tout métier ou activité dont une interruption du service supérieure à trente minutes occasionne des dommages humains et matériels, dont la perte financière est susceptible d’atteindre la couverture des fonds propres très rapidement (par exemple les activités de marché…).
  2. Le niveau critique correspond à tout métier ou activité dont une interruption du service supérieure à 24 heures occasionne une perte financière, qui peut atteindre rapidement des niveaux estimés conséquents pour l’établissement financier (par exemple pour une grande banque : 100 à 500 millions d’euros).
  3. Le niveau sensible correspond à tout métier ou activité dont une interruption du service supérieure à 72 heures occasionne des dommages organisationnels et financiers, susceptibles de porter sérieusement atteinte à l’image de marque de l’entreprise et de faire perdre des clients.
  4. Le niveau faible correspond à toute interruption dont les préjudices sont estimés acceptables indépendamment de la durée.

3. Élaborer le plan de continuité

Après avoir analysé les risques financiers et réalisé l’état des lieux, l’entreprise dispose d’un socle technique minima pour pouvoir bâtir un plan de continuité.

Les moyens de sécurité mis en œuvre doivent être cohérents par rapport aux enjeux (ce qui suppose qu’ils soient correctement évalués) et les uns par rapport aux autres. On doit ainsi éviter d’investir trop par rapport à des enjeux qui ne seraient pas significatifs et, inversement, de sous-estimer l’impact des risques catastrophiques en n’investissant pas suffisamment. De même, il convient de respecter un équilibre et une cohérence d’ensemble entre les moyens. Il ne faut pas trop privilégier la sécurité logique au détriment de la sécurité physique, et inversement.

Les fondamentaux du plan s’organisent en cinq chapîtres :

Définition de l’objet du document et de sa destination :

  • Le niveau d’indisponibilité envisagé.
  • La stratégie de continuité de l’activité : métier, informatique, logistique…
  • L’organisation de la continuité des activités.
  • La planification et la répartition des responsabilités.

Définition des plans d’actions par processus stratégique

  • Nomination des responsables de la continuité.
  • Analyse d’impact (BIA : Business Impact Analysis).
  • Description du ou des scénarios de risque retenus (choc extrême).
  • Détailler le processus et les procédures opérationnels à mettre en œuvre.

Mise en place de l’environnement de travail des métiers

  • Les équipes, l’implantation des personnels, les moyens à disposition.
  • La stratégie de communication avec la direction de la communication.

Mise en place de l’environnement informatique

  • Bâtiments et bureaux prévus pour les personnels.
  • Logistique d’énergie et de télécommunications (EDF, Eau, PABX, communication Internet, Intranet…).
  • Site de secours.
  • Installation des matériels ou mise en ordre de marche (postes de travail, serveurs de messageries, d’applications…).
  • Restauration nécessaire de certaines sauvegardes (fichiers, applications…).

Continuité de l’activité

  • Information des personnels sur le contexte de reprise.
  • Échanges avec la cellule de crise opérationnelle.
  • Retour sur les lieux d’origine (si envisageable en fonction du scénario de risque).
  • Maintien en condition opérationnelle (MCO).

III – Les points d’attention

1. Maintenir la continuité dans la continuité

Sur le terrain, il y a souvent une déperdition importante entre l’idée qu’un plan de continuité est nécessaire (quasiment 10 % des dirigeants et managers d’entreprises en sont convaincus), le fait d’en élaborer un, de le réussir, de le tester et le maintenir en conditions opérationnelles. Cette déperdition s’exprime de la façon suivante, si l’on réalisait un sondage parmi les dirigeants d’entreprises, managers et professionnels IT :

  • Nous avons évidemment besoin d’un plan de continuité : 100 % de réponses « oui ».
  • « Nous avons élaboré un plan de continuité » : environ 75 %.
  • « Nous l’avons testé au moins une fois » : environ 50 %.
  • « Il est maintenu en conditions opérationnelles » : environ 35 %.
  • « Nous avons un processus d’escalade » : environ 30 %.
  • « Nous avons une cellule de crise équipée » : environ 15 %.

2. Savoir identifier les processus critiques

Savoir identifier les processus critiques est un exercice essentiel qui, malgré les apparences, n’est pas simple. Il faut savoir distinguer ceux qui sont critiques pour l’entreprise (services financiers, e-commerce, production…) et les métiers (ERP, paie, prise de commandes)… L’une des difficultés réside dans la tentation, encouragée par les métiers, de considérer que tout est critique et que tous les processus doivent supporter des reprises à 100 % en quelques minutes, quel qu’en soit le coût. Ou que tout le monde doive faire du télétravail.

3. Faire simple

Le principe selon lequel ce qui n’est pas compris ne sera pas exécuté s’applique également aux plans de continuité. Les risques d’incompréhension, voire de conflit ne sont pas à négliger. L’une des recommandations consiste à limiter au strict minimum le nombre de réunions et de comités de pilotage, afin d’éviter les contradictions et les redondances d’actions.

4. Bien définir le partage des responsabilités

Savoir qui fait quoi est une condition nécessaire pour qu’un plan de continuité soit efficace. Les risques sont un sous-dimensionnement des ressources, qui aboutit à un empilement de responsabilités sur quelques-uns ou, au contraire, une dilution sur un grand nombre de parties prenantes, sans vision et pilotage d’ensemble. Cet aspect est notamment crucial en cas de crise. Il faut vite savoir qui est responsable du déclenchement du plan de continuité (DSI, DG, métiers…), qui sont les membres de la cellule de crise (le DSI doit en faire partie), qui sont les personnes concernées en fonction des scéna­rios et qui doit faire quoi. Il s’agit de décrire les tâches de chacun et les moyens (budget, ressources humaines, outils logiciels, consultants externes, etc.) mis à disposition.

5. Disposer d’une méthodologie, voire d’un logiciel

Si le choix a été fait avec pertinence et répond aux besoins de l’entreprise, s’aider d’une méthodologie et d’un outil logiciel constitue une aide précieuse et un gain de temps. Il n’est pas forcément pertinent de choisir ce qui est considéré comme la meilleure solution du marché si elle ne répond pas aux besoins, car trop riche en fonctionnalités ou trop complexe à mettre en œuvre.

Approche par les scénarios : les erreurs à éviter
Bonne pratique À faire À ne pas faire
Combattre le réflexe de prendre des décisions basées sur ce que l’on sait déjà Identifier toutes les tendances qui affectent les métiers de l’entreprise et ses marchés Se contenter de l’information disponible
Ne pas attribuer trop de poids à des événements peu probables Évaluer et prioriser les tendances avec des approches qualitatives Se focaliser sur des chiffres dès le début de l’exercice
Ne pas croire que le futur n’est qu’une projection du passé Construire les scénarios autour des incertitudes critiques Déléguer à des collaborateurs inexpérimentés
Combattre la trop grande confiance et l’optimisme excessif Évaluer l’impact de chaque scénario et identifier des alternatives Privilégier un scénario de manière à occulter les autres
Encourager le débat ouvert Instaurer une discipline dans le processus Sous-estimer l’impact des interactions individuelles
Source : McKinsey.

Épidémies : quels sont les dix bons réflexes pour les DSI ?

Face à la situation inédite liée à la pandémie de coronavirus, Maitrisedescrises.com, un service d’analyse et de recommandations qui accompagne les entreprises en matière de risque systémique, et la communauté des DSI de transition Infortive ont rédigé un livre blanc des bonnes pratiques qui doivent se mettre en œuvre immédiatement. Et qui sont également utiles pour les crises qui surviendront dans le futur. Les dix bonnes pratiques recommandées sont les suivantes :

  1. Garder la DSI alignée sur la direction générale, en participant aux cellules de crise de l’entreprise, afin, en particulier, de contribuer à la bonne priorisation des décisions, en fonction de leur faisabilité.
  2. Préparer la DSI aux changements de priorités de l’entreprise, pour supporter les nouvelles méthodes de travail et superviser les infrastructures (cyberattaques, surcharges réseau, besoins VPN) en alignement avec les activités considérées comme prioritaires.
  3. Préserver les ressources de la DSI, afin qu’elle puisse assurer ses missions, ce qui suppose, d’une part, de recenser les contraintes personnelles des ressources de la DSI (enfants, santé, mobilité…) et, d’autre part, d’affecter les nouvelles missions en fonction des contraintes personnelles.
  4. Organiser la rotation des équipes à la DSI, car il faut se préparer à voir 50 % de ses équipes indisponibles pendant deux semaines d’ici à mi-mai et s’assurer que les informations clés (documentations, mots de passe admin, gestions des droits d’accès…) soient accessibles et partagées. Il convient notamment de ne pas être bloqué par des carences de compétences sur les activités prioritaires et d’organiser des astreintes pour supporter les fonctions vitales en mixant les présences physiques et le télétravail.
  5. Déprioriser, pendant la crise, tous les projets SI à moyen ou long terme, car il faut réaffecter temporairement les ressources des projets non prioritaires aux actions urgentes (support…), geler toutes les évolutions applicatives et techniques et se concentrer sur le support et les correctifs urgents à court terme. De même, il est préférable de ne faire que les maintenances urgentes, les dépannages et la sécurité.
  6. Mettre à disposition des outils collaboratifs pour travailler sans se voir. Dans la mesure où les outils collaboratifs et la visioconférence vont remplacer la machine à café pour régler les problèmes, la DSI doit rapidement proposer des solutions et éviter que tout le monde choisisse la sienne. Ainsi, les solutions doivent être proches des habitudes des utilisateurs pour faciliter leur adoption, en adaptant, en collaboration avec les métiers, les niveaux de sécurité requis.
  7. Renforcer le support aux collaborateurs. Il s’agit de permettre la modification rapide, mais contrôlée, des droits d’accès et de mettre en place des circuits de contrôle et de validation des demandes. Avec le principe de ne chercher à satisfaire que les changements prioritaires, notamment en prélevant des compétences informatiques long terme (développeurs…) pour faire face aux activités urgentes. Par ailleurs, il convient de renforcer le support bureautique et de s’assurer que tous les services prioritaires disposent des moyens minimaux pour travailler même de façon dégradée.
  8. Rester agile et à l’écoute des changements potentiels de la direction générale. Cela suppose, d’une part, de définir avec la direction générale le rythme de réajustement des priorités et, d’autre part, de ne pas prendre des engagements à long terme dans l’urgence.
  9. Communiquer en interne en coordination avec les métiers et la direction générale. Il convient de mettre en place, au sein de la DSI, à la fois un circuit de remontées d’informations pour améliorer immédiatement le fonctionnement interne en période de crise, ainsi qu’une communication quotidienne axée sur une vue à court terme et une vue sortie de crise associées à la mise en œuvre des suggestions remontées. Cet effort de commu­nication doit aussi concerner l’entreprise : dans ce contexte, la DSI doit informer les métiers des réaffectations de tâches entre services, mettre en avant de nouveaux services de la DSI (nouvel outil collaboratif, améliorations…) et le circuit de remontée d’informations pour améliorer immédiatement les services de la DSI à l’entreprise en période de crise.
  10. Préparer le retour à la normale. Cela passe par trois principes : d’abord, communiquer avec ses partenaires afin qu’ils soient prêts à repartir. Ensuite, prendre le temps de mesurer les éléments permettant d’apprendre de la crise (points de blocage, défaillances du Plan de Continuité d’Activité (PCA)…) et, enfin, fermer les solutions provisoires qui ont été mises en place en tirant partie de l’expérience acquise.

À retenir

Un bon plan de reprise d’activités présente généralement six caractéristiques :

  • il est exhaustif, car il prend en compte toutes les données produites et gérées par l’entreprise (y compris celles des utilisateurs sur leurs postes de travail),
  • il est cohérent, notamment pour ne pas sauvegarder n’importe quoi n’importe comment, avec des outils adaptés,
  • il est fiable, car mis à jour régulièrement,
  • il est évolutif, car il prend en compte la modification des périmètres et des types de données à sauvegarder,
  • il est auditable, c’est-à-dire que l’on peut en analyser les caractéristiques, les comparer à d’autres entreprises et, surtout, en identifier les points faibles,
  • il utilise des outils d’automatisation.

Les dix invariants de la continuité d’activités

  1. Sensibiliser la direction générale et les directions aux risques susceptibles de mettre en cause la pérennité de l’entreprise.
  2. Nommer les responsables (RPCA, RSSI, RSI, RSM…) chargés de la coordination de l’ensemble des tâches et organisations afférentes à la continuité des activités.
  3. Mettre en place une cellule de crise décisionnelle et sa dépendance tactique et opérationnelle.
  4. Recenser les logiciels susceptibles d’aider à la conception et à la mise en œuvre des plans de continuité métiers, informatiques et télécommunications.
  5. Faire une analyse de risques en terme d’impact, afin de classifier les activités (stratégiques, sensibles, faible risque).
  6. Déterminer les scénarios ou ensemble de scénarios à retenir (chocs extrêmes).
  7. Rédiger les plans de continuité métier et les plans de secours informatique, ainsi que toutes les annexes et procédures pratiques qui y sont attachées.
  8. Faire des exercices et tests qui permettent de s’assurer du caractère opérationnel des plans.
  9. Mettre en place les processus et procédures de maintien en condition opérationnelle (mise à jour des scénarios de risques et des plans).
  10. Faire des revues qualité régulières et déclencher un audit pour détecter les failles et les points restant à consolider.

Distinguer plan de continuité d’activités et de services
Fréquence des risques Impact Stratégie
Plan de continuité d’activités Faible à très faible, par exemple : incendie, terrorisme, malveillances graves… Risque de disparition de l’entreprise Nécessité de trouver un site de secours. Il faut pouvoir redémarrer l’activité métier de l’entreprise en général à l’extérieur de son site d’origine. Cela concerne en priorité l’activité informatique et télécoms
Plan de continuité
de services
Élevée à très élevée, par exemple : attaques virales, erreurs d’exploitation, dysfonctionnements des serveurs, pannes matériels… Les impacts se situent au niveau des services que doivent rendre les systèmes d’information des entreprises à leurs clients (business, notoriété, respect des lois et de la réglementation, systèmes transactionnels. par exemple dans les environnements de e-commerce), aussi bien en interne qu’en externe Nécessité d’assurer la disponibilité des ressources informatiques et télécoms