Identifier l’information pertinente dans 200 millions de documents : le pari d’AstraZeneca

Le laboratoire pharmaceutique anglo-suédois a investi dans un moteur de recherche pour transformer la manière dont ses chercheurs mènent leurs études et explorent Internet. Le retour d’expérience de Nick Brown, architecte technologie et innovation à la R&D d’AstraZeneca.

AstraZeneca, entreprise biopharmaceutique internationale, développe, fabrique et commercialise des médicaments de prescription dans six domaines thérapeutiques ciblés, tels que le cancer, l’infection, les maladies cardiovasculaires, les troubles gastro-intestinaux, les neurosciences et les maladies respiratoires. « Le laboratoire investit massivement dans la recherche-développement de médicaments, environ quatre milliards par an. Ce département compte 9 800 personnes, réparties sur dix sites principaux dans six pays », précise Nick Brown, architecte technologie et innovation à la R&D d’AstraZeneca. « Notre objectif principal est de développer notre portefeuille de près de 700 produits en innovant toujours plus. » Pour y parvenir, le département R&D d’AstraZeneca doit mettre à profit ses données en les utilisant intelligemment, afin d’accélérer la mise sur le marché des médicaments.

« Concrètement, il s’agissait de délivrer des informations utiles pour la R&D en utilisant une solution d’accès unifié à l’information, c’est-à-dire une solution apte à faciliter l’accès et l’analyse de l’information, et à optimiser le partage des expertises », explique Nick Brown. Tâche d’autant plus difficile que le laboratoire pharmaceutique dispose, en interne, de millions de documents pas toujours accessibles et connus des utilisateurs, sans parler des milliers de sources de données externes. L’accès à ces données crée des risques en matière de sécurité des accès à l’information toujours plus volumineuse, de partage de travaux professionnels et d’interfaçage avec les outils collaboratifs (emails, médias sociaux, fichiers bureautiques, etc…).

Réduire le nombre d’applications

« Jusqu’à présent, nos informations étaient cloisonnées en silos, donc difficiles à exploiter, à mettre à jour et à partager », ajoute Nick Brown. Pour rechercher et récupérer une information intéressante liée à des médicaments, des maladies ou des gènes, le chercheur pouvait utiliser plus d’une centaine d’applications différentes, d’où de multiples modes d’accès, d’interfaces et de systèmes à manier. « Les utilisateurs étaient frustrés dans leur recherche. Ils ne trouvaient pas toujours la bonne information sur l’intranet ou l’extranet, ou bien ne se souvenaient plus de leur mot de passe et perdaient ainsi un temps précieux », déplore Nick Brown. Face à cette situation, le laboratoire préconise l’installation d’un nouveau moteur de recherche et de navigation pour l’accès à l’information.

Accéder à tous les documents via une seule application

La priorité du département R&D était de mettre en place un outil indépendant, simple, disposant de protocoles de sécurité probants, et utilisable par tout le groupe. « Ce projet visait, d’une part, à simplifier la recherche d’information et, d’autre part, à faciliter le partage des expertises, des connaissances et des expériences acquises par les scientifiques », résume Nick Brown, qui précise que le portail de recherche devait permettre d’accéder à tous les documents via une seule et unique application. Autre fonctionnalité attendue par AstraZeneca : la solution devait fonctionner aussi bien sur les mobiles, que les tablettes ou les ordinateurs. Enfin, indique Nick Brown : « l’outil devait être facile à utiliser, car nous ne voulions pas mettre en place une gestion du changement. »

La première étape du projet consiste à recenser les différentes sources de données. Puis, l’équipe R&D rédige le cahier des charges et commence la consultation des offres d’une vingtaine d’éditeurs. « Nous avons interrogé différents profils : des leaders tels que Google, Microsoft ou IBM, mais aussi des challengers comme Sinequa et Exalead. Nous avons passé du temps avec chacun d’entre eux afin de mieux cerner leurs offres et d’affiner nos besoins », se souvient Nick Brown. « Nous leur avons demandé d’innover, de réfléchir en « dehors de leur boîte », au-delà des limites de leur zone de confort. Car nous voulions un éditeur qui soit différent et qui nous surprenne par son approche ». Quatre candidats feront l’objet d’une étude plus approfondie. Trois seront finalement retenus et mis en concurrence. Pour cela, le laboratoire leur demande de réaliser une maquette, met à leur disposition les ressources matérielles nécessaires et 15 millions de documents à indexer, à charge pour eux d’analyser les documents et de développer une application de moteur de recherche.

« Nous recherchions avant tout un partenaire c’est-à-dire un éditeur avec lequel nous puissions établir une vraie relation, mais aussi disposant d’une technologie de Search avancée, innovante, capable de combiner accès et analyse de nos 50 millions de données structurées ou non, dans un court laps de temps », insiste Nick Brown. L’autre critère cité était la pertinence des réponses par rapport aux requêtes. « Il fallait que cette technologie de recherche permette de récupérer l’information facilement et rapidement, même sans demande explicite de l’utilisateur. Bref, que la totalité de l’information puisse être exploitable, quelque soit le langage utilisé. »

Le choix final s’est porté sur la solution Business Search de Sinequa, et se concrétisera avec la signature du contrat en juillet 2013. « Sinequa était le meilleur en termes de pertinence des résultats, d’exigence dans l’analyse linguistique et sémantique », justifie Nick Brown. « Leur solution permettait de réaliser une recherche dans les données de plus de 120 progiciels du marché (portails, e-mails, CRM, ERP…) ou textes, tout en respectant les droits d’accès. » Une version bêta est disponible en deux mois. Certains utilisateurs vont la tester et feront part de leurs remarques. « La manipulation de l’outil devait être intelligible par tous, car nous ne voulions pas engager des programmes de formation », insiste Nick Brown.

C’est d’ailleurs suite aux observations des utilisateurs, que le service R&D fera appel à Pebble Code, une agence de Web design pour « relooker » l’outil. « En deux semaines, ils ont amélioré le design de l’interface Sinequa pour le rendre plus ergonomique et lisible. Ils ont aussi tenu compte des interfaces tactiles de la tablette et du mobile », rappelle Nick Brown. Finalement, le prototype sera lancé en décembre 2013. Désormais, le moteur de recherche identifie les documents qui correspondent le mieux aux mots contenus dans les requêtes et présente les résultats des recherches. Le moteur de recherche, grâce à ses capacités linguistiques et sémantiques, passe au crible tous les documents et les annuaires du laboratoire, créant ainsi des synergies tout en réalisant des économies.

« La recherche se fait de façon intuitive. L’utilisateur n’est plus frustré et peut trouver l’information sans même savoir ce qu’il recherche vraiment », explique Nick Brown. « Exemple, il saisit le nom « insomnie ». Grâce au moteur de recherche, il aura à sa disposition la liste des produits fabriqués par AstraZeneca, les articles des publications traitant du trouble du sommeil et les coordonnées des chercheurs ayant travaillé sur ce sujet ». Autre bénéfice : les chercheurs sont alertés quand une information les concerne. « Ce n’est pas uniquement un outil de recherche et d’accès, mais surtout un outil qui permet de découvrir, d’identifier des informations dont vous n’aviez même pas connaissance », relève Nick Brown.

Cet outil aurait aussi, selon lui, facilité les échanges entre les chercheurs, leur permettant ainsi d’engager des discussions sur des thématiques spécifiques. « Nous avons déployé une solution qui identifie de nouveaux potentiels d’utilisation pour nos contenus. Je pense que nous aidons réellement nos scientifiques. » A noter aussi, la possibilité de réaliser des statistiques complexes facilitant la prise de décision, avec une certaine granularité des droits d’accès. « Tout le monde n’a pas accès au même niveau d’information. Quand deux personnes recherchent une information identique, elles ont des retours différents. Tout simplement parce qu’elles n’ont pas les mêmes droits d’accès », détaille Nick Brown.

Un déploiement en douze semaines

« Déployer ce projet en douze semaines a été possible grâce au soutien des consultants et des experts de Sinequa, Pebble Code et AstraZeneca », indique Nick Brown. Une semaine après la mise en service du moteur de recherche, plus de 1 000 scientifiques utilisaient déjà cet outil. En quelques mois, AstraZeneca a indexé des dizaines de millions de documents et a fourni des applications d’entreprise très pointues à ses utilisateurs. Aujourd’hui, la solution de Sinequa est connectée à plus de 50 sources de données, avec des utilisateurs principalement anglais, suédois et américains. Mais, déjà, les filiales japonaises et chinoises s’intéressent fortement à cet outil. « A moyen terme, plus de 200 millions de documents devraient être collectés sur les sites Web et indexés, permettant à nos chercheurs de trouver rapidement l’information qu’ils recherchent », prévoit Nick Brown.

Dans l’entreprise Hors de l’entreprise
Données structurées
  • Le besoin : gagner du temps, supprimer des tâches inutiles
  • L’approche technologique : agréger les données, les informations et les contenus
  • Le principal challenge : normaliser/standardiser les données
  • La principale difficulté : dégager les budgets pour un projet qui peut apparaître comme non-prioritaire
  • Le besoin : améliorer la performance opérationnelle et la relation client
  • L’approche technologique : intégrer l’ensemble des données
  • Le principal challenge : collecter efficacement les informations
  • La principale difficulté : interfacer les applications
Données non structurées
  • Le besoin : capitaliser sur les connaissances
  • L’approche technologique : unifier les fonctionnalités de recherche
  • Le principal challenge : visualiser l’information et simplifier les interfaces ( » effet Google « )
  • La principale difficulté : identifier et qualifier les besoins métiers
  • Le besoin : identifier les tendances (veille)
  • L’approche technologique : filtrer et personnaliser selon les utilisateurs
  • Le principal challenge : contrôler l’évolution des volumes d’informations
  • La principale difficulté : exploiter intelligemment l’information pour répondre aux objectifs stratégiques
Source : Digitalonomics.