Le choix des algorithmes doit être pensé pour les applications de cybersecurité afin d’expliciter à l’analyste le processus de décision de la machine.
Chaque jour, des milliards de données circulent sur les réseaux publics et privés du monde entier. Des flots d’information gigantesques qui suscitent la convoitise de hackers cherchant à dérober ces données, à bloquer ou à détruire les applications sans cesse plus nombreuses qui reposent sur ces réseaux – dans les entreprises, au sein des gouvernements comme chez les particuliers. Pour contrer ces cybercriminels, des analystes en cybersécurité s’activent au quotidien et surveillent attentivement les flux de données transitant sur ces réseaux. Mais compte-tenu de la diversité et des masses de flux à analyser, c’est un travail éminemment complexe et chronophage. Enfin, jusqu’à l’arrivée de DILAN…
Améliorer l’efficacité opérationnelle
« DILAN est né d’une discussion entre nos chercheurs et les experts opérationnels d’Orange Cyberdéfense » précise le responsable du projet, Stéphane Morucci. Les experts d’Orange Cyberdéfense ont en charge la sécurité des données et réseaux des nombreuses entreprises et administrations clientes d’Orange Business Services. « Ils nous ont consultés, poursuit Stéphane Morucci, pour apporter de l’aide à la détection de certaines menaces particulièrement difficiles à traiter avec les techniques actuelles : la propagation de virus (comme par exemple le tristement célèbre virus WannaCry), la présence de logiciels d’exfiltration de données sensibles (vols de données bancaires, d’identité, de secrets industriels, identification des failles d’une entreprise, etc.) ou bien encore l’existence de botnets (des réseaux dormants de robots qui se réveillent à la demande d’un pirate pour attaquer simultanément une cible spécifique avec des conséquences souvent fatales).
Nos équipes de chercheurs ont pris l’initiative d’explorer certaines techniques de Machine Learning particulièrement efficaces pour détecter des anomalies (et donc potentiellement des attaques) au sein de volumes très importants de données ».
Une équipe projet transverse a donc été créée, elle réunit des chercheurs en Intelligence Artificielle (dont des doctorants des experts en cybersécurité, des spécialistes du Big Data, des développeurs et accueille des contributions de responsables marketing, d’experts en visualisation de données et de managers. L’objectif ? Construire une intelligence artificielle spécialement entraînée à la détection des cybermenaces grâce à des algorithmes à la pointe de l’innovation. « Cette IA n’a pas pour but de remplacer l’analyste en cybersécurité, insiste Stéphane Morucci, mais vise au contraire à faciliter et à accélérer son travail ». Aujourd’hui, en effet, on estime qu’environ 50 % du temps d’un expert sécurité est dédié à l’analyse de menaces qui se révèlent être au final des « faux positifs » (c’est à dire des menaces non avérées). L’IA sélectionne les menaces qui doivent être traitées de façon prioritaire afin de faire gagner un temps précieux aux analystes et ainsi elle participe à l’amélioration de l’efficacité opérationnelle.
Des algorithmes à la pointe de la technologie
Avec la solution expérimentale DILAN, la machine se propose de chercher l’aiguille dans la botte de foin à la place de l’analyste. Elle est conçue pour s’interfacer simplement avec les logiciels SIEM les plus utilisés (SIEM : « Security Information and Event Management », la pierre angulaire d’une solution de sécurité managée). A l’écoute des informations remontées par le SI du client, l’IA de DILAN va les analyser et apprendre au fur et à mesure ce qu’il convient de considérer comme usage normal ou non. Cette analyse automatique peut aussi être avantageusement complétée par le feedback des analystes. Au bout d’un certain temps, DILAN a suffisamment appris pour prendre son autonomie, et faire la chasse aux menaces tout en limitant fortement le nombre de faux positifs soumis à l’attention des analystes. « La principale innovation dans ce projet, confie Baptiste Olivier, qui pilote le volet Intelligence Artificielle du projet DILAN, réside dans le choix et la combinaison d’algorithmes d’apprentissage. L’approche par réseaux de neurones profonds, qui fonctionne particulièrement bien pour la reconnaissance d’images par exemple, produit des résultats difficiles à interpréter, et doit donc être complétée par des algorithmes qui permettent de faciliter l’interaction avec l’analyste sécurité. Dans ce type d’application où l’expertise humaine améliore considérablement les performances de l’IA, il est essentiel de savoir précisément, idéalement étape par étape, comment la machine est arrivée à sa décision ».
L’IA, un terrain de recherche expérimental…
Autre atout de DILAN : des méthodes de « transfer learning », c’est-à-dire des capacités à pouvoir réutiliser la connaissance acquise sur un autre réseau afin de ne pas avoir à tout réapprendre depuis le début. Par exemple, après avoir été entraînée sur le SI d’une entreprise cliente pendant plusieurs semaines, cette IA pourrait être répliquée sur le SI d’une autre entreprise ‑ aux flux à peu près analogues ‑ en étant opérationnelle en quelques jours seulement (la mise en place de la politique de détection d’un SIEM nécessite plusieurs semaines). Ici également, DILAN vient en complément des processus actuels afin de rendre les équipes opérationnelles plus performantes, ce qui constitue un facteur différenciant vis-à-vis de la concurrence.
Enfin, pour le confort des analystes et fournir un reporting de qualité auprès du client final, le projet DILAN explore de nouvelles solutions pour visualiser les énormes quantités de données manipulées et analysées : par exemple, l’interface représente chaque nœud du réseau et en matérialise les flux en temps réel – signalant en vert le trafic jugé normal, en jaune les flux suspects et en rouge les menaces à investiguer en priorité.
« Grâce à l’étroite coopération entre nos chercheurs et nos experts métiers, nous avons mis au point une solution flexible, et inédite qui fonctionne parfaitement dans nos labos, conclut Stéphane Morucci. Nous sommes désormais prêts à lancer DILAN sur des flux de données de production et nous recherchons des partenaires pour mener à bien une expérimentation terrain, avec de vrais cas d’usage, qui pourront, si nécessaire, influer sur la roadmap technologique du projet ». La conception modulaire de DILAN permet de s’adapter facilement à différentes architectures existantes : ses algorithmes peuvent même être poussés si besoin à l’endroit où sont stockées les données, ce qui les rend compatibles avec le Règlement Général pour la Protection des Données (RGPD).
Potentiellement, DILAN peut faciliter la vie des analystes en cybersécurité dans de nombreux secteurs : services IT, opérateurs, industriels ou encore acteurs de l’Internet de Objets dans le domaine Entreprise et Grand Public. Avis aux DSI intéressés !