Comment Europ Assistance surveille l’état de santé de son système d’information

« Ne pas prévoir, c’est déjà gémir » : cette citation de Léonard de Vinci trône en bonne place dans le bureau de Mickaël Nestout, responsable Qualité de Service et Production à la direction des systèmes d’information d’Europ Assistance, à Gennevilliers, en banlieue parisienne. Cette citation résume bien la ligne de conduite des équipes de Production.

Pour assurer ses missions, Europ Assistance doit pouvoir s’appuyer sur un système d’information disponible, fiable et performant. Cela concerne en particulier les applications permettant de répondre aux demandes d’assistance des clients en difficulté, mais aussi, les applications de e-business ou de téléassistance, qui doivent être accessibles 24 heures sur 24, 7 jours sur 7, et 365 jours par an. Pour surveiller en permanence l’état de santé de son système d’information et systématiser la supervision, Europ Assistance a choisi la solution POM Monitoring, d’Exosec. Après un POC (Proof of Concept) réussi, POM Monitoring est déployée début 2009 sur 150 serveurs d’Europ Assistance France, avec priorité aux serveurs hébergeant les applications les plus critiques.

Jusqu’en 2008, la DSI d’Europ Assistance France s’appuyait sur une solution basique pour surveiller la disponibilité des applications. « Notre outil se limitait à vérifier que les serveurs étaient en état de fonctionnement. Nous avions besoin d’une solution qui nous permette de disposer d’une visibilité complète et orientée client, sur l’état de santé de l’ensemble des infrastructures supportant les applications critiques », se souvient Mickaël Nestout. Trois critères ont guidé le choix de la solution de supervision.

Le premier, c’est la possibilité de paramétrer l’outil depuis un fichier Excel : le nom du serveur, ainsi que ces caractéristiques, sont simplement ajoutés dans le fichier, ce qui facilite la gestion de la supervision.

Le second, la console de monitoring sait gérer « l’auto-acquittement » des alertes : celles-ci sont automatiquement réinitialisées par le système dès qu’elles ont pu être traitées.

Le troisième, la solution retenue par Europ Assistance est basée sur un modèle de licensing Open Source : « Ce critère est important. Il est en effet préférable de limiter les coûts d’acquisition logiciels pour privilégier les coûts d’intégration et de paramétrage. Et ce, afin de disposer d’une solution opérationnelle adaptée au contexte et au besoin de l’entreprise », assure Mickaël Nestout.

Europ Assistance a travaillé avec Exosec pour adapter POM Monitoring. « Nous avons été demandeurs de nouvelles fonctionnalités, et avons travaillé, de manière itérative et pragmatique, avec Exosec, qui a d’ailleurs intégré, en standard, certaines de nos demandes ». De fait, ce mode de partenariat s’avère très vertueux, à la fois pour l’éditeur et ses clients : le premier enrichit sa solution, les seconds adaptent la solution à leurs besoins…

Outre la supervision technique, Europ Assistance a souhaité élargir son champ d’action à la performance applicative. « Nous avions rapidement identifié ce besoin de couvrir la supervision applicative et, de son côté, Exosec avait la volonté de faire évoluer sa solution dans cette voie », précise Mickaël Nestout. Le problème à résoudre est relativement simple sur le papier : « Lorsqu’une application fonctionne sur deux serveurs en cluster, si l’un dysfonctionne, une alerte technique est générée mais, du point de vue de sa disponibilité, l’application est toujours opérationnelle ! Il nous fallait donc deux mesures différentes pour obtenir une vision globale. Il est essentiel d’acquérir des outils qui servent directement aux équipes de production pour une vision applicative de « bout en bout » », explique Mickaël Nestout.

L’expérience montre que les difficultés liées à la disponibilité d’une application sont souvent précédées de signes annonciateurs, notamment une défaillance d’un serveur ou d’une connexion réseau. « Nous pouvons ainsi agir de manière proactive, si l’on a connaissance d’un incident technique avant de subir un incident de disponibilité applicative, en distinguant rupture de service fonctionnelle et instabilité technique », ajoute Mickaël Nestout.

Cette évolution dans la supervision a été utile dans le cadre de l’opération de rapprochement de la DSI France d’Europ Assistance avec la DSI Groupe, initiée en 2012. Elle a abouti à une multiplication par deux du nombre d’équipements et de datacenters. « Nous avons fait converger les outils des deux entités. Nous avons conservé POM Monitoring, ce qui nous a permis d’étendre la supervision applicative à l’ensemble des applications du groupe », rappelle Mickaël Nestout, pour qui « c’est lors de transformations majeures que l’on peut mesurer la pertinence d’un outil ! »

7 ITBR 1
  • LinkedIn
  • Twitter
  • Facebook
  • Gmail

 

Un levier de communication vers les métiers, la DG et les partenaires

Le fait de disposer de mesures de disponibilité applicative fiables facilite la communication vers les métiers. Lors des comités de suivi ou de pilotage, les indicateurs de disponibilité applicative sont communiqués aux métiers (la direction des opérations et/ou les directions commerciales), mais également aux partenaires qui intègrent les services d’Europ Assistance dans leurs propres offres (par exemple des grands sites marchands dans le domaine du voyage). La direction générale est aussi destinataire de ces indicateurs. « Il ne suffit pas de diffuser les chiffres, il faut aussi les expliquer, les commenter et, si nécessaire, communiquer sur les éventuels plans d’action mis en œuvre pour améliorer la disponibilité, explique Mickaël Nestout. Cela change complètement la nature des échanges avec les utilisateurs : nous ne communiquons plus uniquement sur les incidents ou les dysfonctionnements du système d’information, mais sur la disponibilité applicative ; la production n’est plus là seulement pour annoncer les mauvaises nouvelles ! Cela nous a permis de démontrer notre transparence sur ce sujet. » Jean-Michel André, DSI d’Europ Assistance confirme : « Combiner la supervision technique et applicative a réellement changé la culture des équipes de la DSI. »

Aujourd’hui, près de 120 applications, 400 serveurs (physiques ou virtuels) et 200 équipements réseaux sont supervisés avec POM Monitoring. Évidemment, les applications critiques sont les premières concernées : les services de e-commerce, les applications de prise d’assistance, le CRM et la téléassistance. « Les applications de e-commerce sont très critiques car très visibles par nos clients, la prise d’assistance constitue notre cœur de métier, la téléassistance est, elle aussi, critique, c’est un engagement légal : la vie de personnes est en jeu, la disponibilité doit être totale », résume Mickaël Nestout.

L’un des challenges dans la mise en place des sondes de disponibilité applicative est d’affiner suffisamment les seuils de déclenchements pour être représentatif du comportement réel de l’application. Une sonde trop sensible générera des « faux positifs » (alertes non fondées). Au contraire une sonde réglée de manière trop lâche ne détectera que trop tardivement une rupture de service réelle. « Une phase d’ajustement est indispensable, pour modéliser et paramétrer des mesures de disponibilité applicatives pertinentes représentatives du comportement réel des applications », conseille Mickaël Nestout.

Dernier élément mis en place par la production d’Europ Assistance : détecter automatiquement les éléments actifs non référencés dans POM, de manière à disposer d’une supervision exhaustive de l’ensemble de l’infrastructure. POM Monitoring fait partie du quotidien des équipes de la Production d’Europ Assistance qui ont parfaitement intégré le slogan du groupe Europ Assistance : « You live. We care… » (vous vivez, nous veillons).

  L’APM, pour quoi faire ?
 Les objectifs  Les résultats
 Mesure de la qualité de service applicative Contrôle de la qualité de service (QoS – Quality of Service) rendue par les applications, en fonction de leur criticité opérationnelle ou business.
 Mesure de la qualité de service applicative Mesure des performances du point de vue des utilisateurs (QoE – Quality of Experience), en reproduisant leur expérience réelle.
Comparaison entre la qualité de service délivrée et la qualité perçue Corrélation des données de performance mesurées en interne (applications et infrastructures sous-jacentes) et perçues par l’utilisateur.
Tableaux de bord et indicateurs clé de performance Agrégation des indicateurs de niveau de service (KPI) au sein de tableaux de synthèse, personnalisables en fonction de leurs destinataires (DG, directions opérationnelles, DSI…).
Cartographie des composants du système d’information Recensement de l’ensemble des éléments, matériels et applicatifs, internes ou externes, qui composent le SI.
Reconstitution des chaînes applicatives Identification de tous les composants sollicités pour délivrer un service applicatif, et de leurs interdépendances.
 Vues temps réel de l’état de santé du SI Mesure et contrôle de la disponibilité et des performances par services métiers, entités géographiques, silos technologiques…
Alertes en cas de dysfonctionnement
  • Alertes quand les indicateurs de qualité sont en-dessous des niveaux de service attendus.
  • Les équipes sont prévenues en temps réel en cas d’incident ou de dépassement de seuils prédéfinis.
Analyses de tendances
  • Des tableaux de bord sur l’évolution des taux de disponibilité et de performance permettent d’anticiper les dysfonctionnements.
  • Des rapports sur l’évolution des niveaux de services permettent d’anticiper les dysfonctionnements avant qu’ils n’affectent les utilisateurs.
  Source : POM Monitoring.

 


Qu’est-ce que l’APM ?

  • L’application performance monitoring (APM) est défini, selon Gartner, comme un processus qui comporte cinq caractéristiques :
  • tracer, en temps réel, l’exécution du code logiciel qui compose une application.
  • mesurer et assurer le reporting des ressources matérielles et logicielles.
  • déterminer si une application s’exécute de la manière attendue par les utilisateurs.
  • mesurer les temps de réponse.
  • déterminer pourquoi une application s’est mal exécutée, ou pourquoi une ressource consommée a des temps de réponse inadaptés.

Source : Magic Quadrant for Application Performance Monitoring, Gartner, décembre 2013.

 Les trois angles de la santé applicative d’un système d’information
 Domaine d’analyse  Comment faire ?  Exemples d’indicateurs
La disponibilité
  • Mesurer le taux de disponibilité de l’application, pour une période donnée, en fonction des horaires d’ouverture de l’application et en s’appuyant sur des méta-indicateurs
  • Graphe de disponibilité (dans le temps)
  • Durées de disponibilité / indisponibilité
La performance 
  • Identifier les composants considérés comme critiques ou représentatifs de la performance de l’application
  • Déterminer une performance nominale attendue, par composants
  • Mesurer les temps de réponse
  • Mesurer la performance de chaque composant, pondérée par un coefficient par composant
  • Graphe historique de performance
  • Taux de service : part du temps où l’application délivre la performance attendue
Les risques
  • Mesurer le risque pesant sur l’application en s’appuyant sur le nombre d’incidents constatés
  • Nombre d’incidents
  • Courbe de tendance