Plan de continuités d’activités : toutes les bonnes pratiques

BNP Paribas, EDF et Cofiroute : trois contextes business très différents mais une approche commune. Ces trois groupes ainsi ont mis en œuvre des plans de continuité d’activités, dont le bilan a été présenté par le Clusif (Club de la sécurité de l’information français).

Chez Cofiroute, l’un des premiers maîtres d’ouvrages privés en France (1923 collaborateurs, 1 100 km de réseau, 73 gares de péage), la Direction des Systèmes Opérationnels conçoit, développe, intègre et opère tous les systèmes dont ceux critiques. D’une part, dans le domaine de la sécurité (système d’Aide à l’Exploitation, système de Gestion des Appels d’Urgence) et, d’autre part, dans le domaine du péage (gestion des transactions de péage, outils liés à l’automatisation).

Pour sa part, la Direction de l’Exploitation maintient et renouvelle les équipements de la route. Le Système d’Aide à l’Exploitation, outil de gestion temps réel de l’information routière, assure une traçabilité totale des opérations, avec une transmission des informations aux différents acteurs.

Le plan de reprise d’activités a été lancé fin 2006, avec, précise Laurent Beaussart, directeur adjoint des systèmes opérationnels de Cofiroute, « un recensement des applications, la détermination des RTO (Recovery Time Objective) et RPO (Recovery Point Objective), la cartographie des applications et des systèmes et les premiers scénarios de secours et chiffrages. » Au cours du second trimestre 2007, le périmètre a été étendu aux équipements de route et une mise à jour des RTO et RPO a été effectuée. Fin 2007, a été finalisée l’élaboration de l’architecture et du scénario de secours, la validation budgétaire et le lancement de la phase opérationnelle.

« Nous avons abandonné l’hypothèse de recours à une solution externe, pour trois raisons, précise Laurent Beaussart. D’abord, du fait d’une manque de réactivité a priori compte tenu de certains RTO (une heure), ensuite parce qu’il était impossible d’adresser simplement le périmètre des équipements de la route, et, enfin, parce que le contexte était très fluctuant dans une dynamique de gros projets informatiques. » Ont été privilégiés le recours à de la virtualisation pour diminuer les coûts matériels , l’utilisation maximale des technologies SAN et des clusters, ainsi que la sécurisation des liens inter-sites et des extrémités de réseau par des liens opérateur.

Pour Laurent Beaussart, la démarche de PRA consiste à mener en réalité deux projets en parallèle. D’une part, un projet à dominante technique, notamment pour la préparation des environnements matériels, l’installation des configurations virtuelles en production et en secours, l’écriture des Procédures de Reprise Unitaires et la validation des procédures d’exploitation en mode secours. D’autre part, c’est également un projet organisationnel : « La construction de l’organisation de secours est en effet basée sur les différentes permanences opérationnelles existantes ainsi que sur l’infrastructure de gestion de crise », souligne Laurent Beaussart.

Aujourd’hui, les environnements techniques sont prêts et un test sur l’un des scénarios a été effectué en octobre 2008. « D’autres tests sont prévus en 2009 puis tous les ans », précise Laurent Beaussart. La continuité de service chez Cofiroute est d’autant plus une priorité que le groupe a lancé en 2005 une charte « qualité et sécurité » qui couvre la précision de l’information, la qualité de l’accueil, l’accompagnement et l’optimisation du temps de parcours, ainsi que la fluidité.

Concrètement, la gestion d’un centre d’exploitation peut être reprise par un autre centre, en totalité ou partiellement, le basculement des équipements et des informations étant automatique. De même, au niveau du Centre d’Appel Dépannages, un second centre de secours distant de quelques kilomètres a été construit et le fonctionnement testé. Enfin, au niveau des centres de téléopérations, un des trois centres peut prendre le relais d’un autre en cas de besoin, par reconfiguration du routage. « Ces mesures ont été imaginées dès la conception », précise Laurent Beaussart.


Les best Practices de Laurent Beaussart (Cofiroute)

  • La virtualisation est nécessaire pour les systèmes source et cible.
  • L’aspect documentaire est primordial (+ de 50% de la charge du projet).
  • L’existence de réflexes « gestion de crise » dans l’entreprise facilite la communication et l’adhésion des opérationnels et de la D.G.
  • Documenter, documenter, documenter, cela a un impact sur les procédures d’exploitation au quotidien.

Autre exemple : EDF, qui a une Politique Sécurité Groupe « déclinée par entité avec des PCA adaptés à l’environnement informatique des entités », précise Véronique Bonne, chargée de mission à la direction informatique et télécommunications chez EDF. L’ensemble du processus, depuis le « Programme Secours » jusqu’au maintien en condition opérationnelle du Plan de Continuité d’Activité, s’est déroulé en plusieurs étapes, entre 2003 et 2006 : méthodologie, enquête métier, définition des palliatifs métiers, sécurisation des centres de calcul, architecture de secours, externalisation des données, intégration du volet « Système d’Information » à l’organisation de Crise, exercice simulant un sinistre important sur les infrastructures et, enfin, élaboration du Plan de Continuité d’Activité sur sinistre majeur du système d’information (organisation de Crise, plan de Continuité d’Activité Métier, plan de Reprise d’Activité).

« Il s’agit d’une vraie problématique réseau », estime Véronique Bonne, dans la mesure où les enjeux portent sur la reconstitution du système d’information critique sur un réseau séparé, l’interconnexion des réseaux de secours avec les réseaux de production, et l’adaptation du débit.

Types de secours Reprise des données Reprise des traitements Solutions
Haute disponibilité Instantanée (Dernière transaction) Immédiate Haute disponibilité : Clustering + Mirroring sur environnement dédié. Sans interruption si l’application est conçue pour, sinon quelques minutes
A chaud de quelques minutes à quelques heures < 4 heures Secours à chaud : Réplication cohérente des données entre site de production et site de secours,
environnement dédié
A froid de 12h à 36h suivant l’heure du sinistre de 48h00 à 5 jours Secours à froid : Sauvegardes externalisées sur médias (bandes, CD), environnement mutualisé
ou dédié
Source : EDF.

 


Les best practices de Véronique Bonne (EDF)

  • Un PCA régulièrement testé permet une appropriation par les acteurs, des rôles, circuits et documents, une vérification de l’exhaustivité et de la pertinence des documents et une validation des solutions de secours.
  • Le PCA contribue à la boucle d’amélioration de l’ensemble du dispositif SI.
  • Former tous les acteurs.
  • Mettre à jour les référentiels.
  • Travailler la communication.
  • Maintenir le dispositif en fonction des évolutions technologiques et du système d’information.
  • Se souvenir que les exercices ne sont pas la réalité.

Pour Annie Butel,, responsable PCA de la fonction Finances, BNP Paribas, le PCA est « construit pour permettre à une entreprise de survivre à un sinistre en minimisant ses pertes financières et d’image. » Annie Butel discerne plusieurs points clés de réussite : avoir préparé le projet à temps, avoir un responsable PCA bien positionné dans la structure, bien évaluer les risques et les impacts, élaborer une stratégie claire et documentée de couverture, privilégier une cohérence impact/couverture/coûts, maintenir un site de secours en cohérence avec les besoins et décrire les procédures nécessaires avec le bon niveau de détail. Sans oublier les tests, la formation et la maintenance. « Rien ne vaut un test utilisateur surtout s’il échoue ! », précise Annie Butel, pour qui « un plan de secours testé moins d’une fois par an ne pourra jamais répondre aux besoins critiques exprimés. Un test est le seul garant qu’un plan de secours est toujours d’actualité. »

Côté formation, souvent oubliée, il faut privilégier l’interactivité et la formation permet « d’éviter les conduites irrationnelles en cas d’alarme, de distinguer un incident d’un désastre, de canaliser les réactions et d’orienter les décisions », détaille Annie Butel. Enfin, dans le domaine de la maintenance, « un processus à part entière et cela ne finit jamais », précise Annie Butel. La maintenance s’impose notamment pour tenir compte des changements dans l’organisation, dans les périmètres business. « Le support informatique est loin d’être statique, Le plan de secours est un document vivant ! », conclut Annie Butel.