Comment évaluer des mesures de contrôle (du risque)

C’est un sujet tellement vaste que je ne pense pas qu’il puisse être réduit à un seul article, mais comme il est au cœur d’une analyse de risque, il est impératif d’en parler un peu et parfois contribuer à démystifier ce sujet.

Lorsqu’on analyse des risques, notamment les risques résiduels, la partie la plus important est celle dans laquelle nous considérons les mesures de contrôle attendues et que nous en évaluons l’efficacité.

Identification des mesures de contrôle

Je ne parlerai pas par l’anglicisme « contrôles » qui est un raccourci abusif qui ne possède pas le sens voulu en français, mais son équivalent presque littéral de « mesure de contrôle du risque » (appelons-les MCR) car en gestion des risques la finalité d’une mesure est bien de maîtriser ou contrôler les risques …. en dehors de sa finalité, elle n’a aucun intérêt intrinsèque. ISO 27000 utilise le terme « mesure de sécurité », mais cela convient, bien-sûr, uniquement au domaine de la sécurité.

Lorsque nous en sommes à la phase d’identification des risques, nous identifions les menaces, l’état de vulnérabilité du système étudié ce qui comprend les éventuelles faiblesses constatées et les mesures attendues. Très souvent ces mesures sont importées littéralement de fameux référentiels que tout bon professionnel s’enorgueillit de connaître. Est-ce judicieux ? La plupart du temps c’est une erreur car ces référentiels nous font démarrer de zéro comme si nous n’en avions pas en propre. Or, chaque organisation émet des politiques, des directives et des normes qui servent précisément de mesures de contrôle des risques. Quels risques ? Idéalement ceux que l’organisation aurait identifié au départ, les risques majeurs lorsqu’on considère l’entreprise dans son ensemble comme l’actif qu’il faut protéger. Ces documents devraient contenir l’ensemble des mesures de contrôle de base pour couvrir ces risques majeurs, ils sont en fait un supra-plan de traitement de ces risques. Mais force est de constater que ce premier instantané n’existe que très rarement. Non seulement les entreprises n’ont pas cherché à obtenir cet instantané, mais il y a une déconnexion totale entre leur cadre documentaire de référence interne et le processus de gestion des risques. C’est notamment le cas lorsque l’organisation distingue les activités de gouvernance des activités de gestion des risques et qu’elles sont maintenues par des directions différentes sans avoir réussi à les faire communiquer efficacement en continu.

Mentionnons les principaux référentiels de mesures de contrôle, généralement de sécurité :

ISO 27002:2022 pour aider à analyser les risques avec des méthodes comme ISO 27005 (93 mesures, 114 précédemment).
NIST SP800-53r5 (2020, pour protéger les informations confidentielles de toutes sortes de risques, comme « les attaques hostiles, les erreurs humaines, les désastres naturels, les dysfonctionnements structurels, les entités de renseignement étrangères, les risques de perte de la vie privée »… 1189 mesures environ) Sa version Excel s; Son référencement croisé avec ISO 27002, ici. Pour aider à analyser les risques selon le cadre NIST SP800-39 (2011), obligatoires pour tout système d’information fédéral. Le référencement croisé avec les mesures préconisées par leur cadre cyber CSF, ici.
NIST SP800-171r2 (2020, pour protéger les informations dans les organisations qui ne sont pas des institutions fédérales, fournit 110 mesures environ). La page dédiée ici. Normalement c’est cette sélection de mesures qui devrait être utilisée comme référence par les organisations privées, et pas le 800-53r5, mais le plus souvent les professionnels sont sujets à des biais d’ancrage et vont continuer à utiliser le référentiel le plus exhaustif et qui est le plus connu.
NIST CSF 2.0 (2024, le cadre cyber propose 108 mesures distribuées à travers 6 fonctions pour aider les organisations à atteindre les objectifs selon leur « profil de risque »). Une présentation ici. Le référencement croisé avec les mesures préconisées par leur cadre cyber CSF et NIST SP800-53r5, ici.
CIS 18 (version 8, anciennement SANS 20, puis CIS 20 fournit un cadre de 18 catégories totalisant plus de 153 mesures). Très souvent utilisé, il possède des tas de ressources utiles, comme un cours d’introduction, un outil pour mesurer leur bonne application, etc.
SCF (2024, Secure Controls Framework, le plus complet et le plus régulièrement actualisé, avec près de 1200 mesures de contrôle). Une présentation ici. Le nombre de référencements croisés maintenus est juste incroyable.
HITRUST CSF (Common Security Framework, payant et certifiable, pour les organisations de santé), ici.

En dehors des préférences personnelles, il est intéressant de constater le nombre très variable de mesures d’un référentiel à l’autre, sans pour autant les rapprocher à des scénarios de menace. En général, ces référentiels sont (à tort) utilisés en gestion des risques en utilisant le raccourci fréquent que si on est conforme au cadre qui semble le plus complet, on couvre la majorité des risques possibles. Peut-être, mais à quel prix ? et à quoi servent toutes les politiques, directives et normes qui sont publiées dans les organisations ?

La plupart de ces référentiels disposent de méthodes pour mesurer le niveau de conformité, soit en passant par l’efficacité de la mesure mise en place, soit en passant par l’évaluation du niveau de maturité (p. ex. CMMI). Le cadre ISO 27001 nécessite d’acheter le standard ISO 27004 pour nous y aider. Comme les référentiels eux-mêmes, ils ont tous des avantages et des inconvénients et leur usage en aveugle n’est pas recommandé.

Taxonomie des mesures de contrôle

Les 6 fonctions stratégiques issues du cadre NIST CSF 2.0 (gouverner, identifier, protéger, détecter, réagir, récupérer ou reprendre) sont les catégories plus couramment utilisées et à juste titre. Elles saisissent l’essence des mesures dans leur finalité en gestion des risques qui est soit de modifier la vraisemblance, soit de modifier la magnitude d’impact.

Je les résume souvent en deux grandes fonctions ou services :

Prévention et dissuasion (gouverner, identifier, protéger) censées empêcher la survenue d’un incident (qu’un scénario de risque ne se réalise)
Détection et réaction (détecter, réagir, récupérer) censées limiter l’impact après qu’un incident soit survenu

C’est très important de correctement distinguer la portée réelle des mesures. J’entends souvent que certaines mesures peuvent être à la fois préventives et réactives. Mais c’est faux dans l’absolu, si on les décrit correctement du point de vue fonctionnel avant tout. Lorsque c’est le cas, c’est parce que la description des mesures elles-mêmes n’est pas au bon niveau et qu’elle concerne maladroitement la technologie qu’on avait à l’esprit au moment de la rédaction. En effet, une solution comme un antimaliciels par exemple, possède à la fois des fonctions de prévention ET des fonctions de réaction. Elles ne sont pas interchangeables et sont fonctionnellement bien différentes. Si on décrit dans un référentiel tous les services rendus par un antimaliciel, le résultat sera effectivement que la mesure (en fait la technologie) aura une double finalité. C’est pour cette raison que la majeure partie des référentiels d’usage courant comportant ces erreurs de conception, sont un peu plus difficiles à utiliser correctement. Par exemple, un référentiel pourra associer une mesure à une fonction, et un autre référentiel à une autre. Le référentiel du CSF 2.0 est sans doute le plus pertinent, et pour cause, il est pensé correctement depuis le début.

Les mesures de contrôle se différencient par leur portée, fonction ou service comme vu précédemment, mais aussi par leur nature. Une mesure peut ainsi être administrative, procédurale, technique ou physique.

Administrative : une sanction, un document, une clause sont toutes de nature administrative. Leur portée ou fonction est généralement dissuasive et font donc partie des mesures préventives.
Procédurale : un processus, une activité (p. ex. une analyse de risque, un audit) sont de nature procédurale. Elles nécessitent l’intelligence humaine et un ensemble d’actions coordonnées. Leur portée est variable.
Technique : suppose l’utilisation d’une technologie et une dose variable d’automatisation (p. ex. un pare-feu, un antimaliciel). La technologie est logique, elle utilise par exemple des logiciels pour rendre leur service.
Physique : suppose une protection

Catégoriser les mesures correctement est crucial car cela permet de comprendre puis d’évaluler leur efficacité intrinsèque qui dépend de leur nature et de leur fonction. On peut les hiérarchiser : une mesure administrative, même si elle est préventive, est d’une efficacité intrinsèquement inférieure à une mesure préventive technique qui userait d’automatismes pour contraindre les utilisateurs. Quand on écrit une politique ou une directive, à propos de la gestion des mots de passe, on doit savoir qu’écrire » l’utilisateur doit choisir un mot de passe robuste conformément à la norme en vigueur » est bien moins efficace que d’écrire : « Tous les systèmes de l’organisation doivent contraindre les utilisateurs dans un choix de mots de passe robuste selon les meilleures pratiques du moment ». Les contraintes techniques renforcent notre idée de départ et permettent à priori d’atteindre les objectifs souhaités, que les mots de passe soient difficiles à deviner.

Quand on identifie les mesures attendues ou qu’on définit un plan de traitement de risques, il faut s’assurer de couvrir idéalement toutes les possibilités un peu à la manière d’une défense en profondeur. On veut pouvoir exploiter des mesures de nature variée (quand la technologie échoue, c’est bien de pouvoir compter sur la discipline de l’utilisateur) et de portée complémentaire : puisqu’on ne peut être sûrs qu’une mesure empêchera toutes les attaques, ce serait bien de pouvoir les détecter également, et, encore mieux, corriger le problème rapidement.

Évaluation des mesures de contrôle

Je l’ai mentionné au début de l’article, une mesure n’a aucune valeur intrinsèque. Elle n’a d’intérêt que si elle est pleinement efficace pour rendre le service attendu. Quand on recommande une mesure, qu’elle provienne idéalement du cadre documentaire interne ou d’un référentiel externe, on doit lui associer une menace (simple ou sous la forme d’un scénario) avant de pouvoir en évaluer l’efficacité. C’est une question de bon sens, mais ce n’est pas forcément ce que vous lirez tout le temps. Si on pense à implémenter un pare-feu réseau, qu’est-ce que qu’on souhaite faire exactement fonctionnellement ? Un pare-feu possède deux fonctions principales :

Il filtre les paquets réseau reçus en agissant comme une passerelle, laisse passer les paquets qui proviennent de sources et à destination de systèmes autorisés, vérifie que les paquets appartiennent à des protocoles eux-mêmes autorisés. Ici la mesure est le filtrage de paquets réseau, qui est une fonction préventive qui va modifier la probabilité qu’un événement de menaces survienne.
Il journalise les événements pour référence future mais aussi pour alerter les administrateurs dans le cas où des événements doivent être protées à leur attention. Ici la mesure est la journalisation et l’alertage qui est une fonction réactive. qui va modifier la magnitude d’impact après qu’un événement de menaces soit survenu.

Si nous devions évaluer les mesures attendues, il nous faudrait comprendre les différents événements de menace qui sont associés au filtrage de paquets en s’assurant notamment qu’on filtre bien au bon niveau des couches OSI et qu’on ne pense pas utiliser un pare-feu réseau pour prévenir des attaques protocolaires web, qui est une tout autre affaire. Parfois la pertinence peut être partielle mais pas totale face à la menace envisagée. C’est la raison pour laquelle on ne devrait pas évaluer l’efficacité d’une mesure dans l’absolu … en tout cas pas dans le cadre de la gestion des risques. C’est fréquemment l’usage en audit des systèmes d’information et c’est acceptable dans le strict contexte de l’audit souhaitant vérifier que la mesure en place est conforme à un référentiel interne ou externe, la pertinence par rapport à la menace est secondaire …

Quels sont donc les différents critères que nous pourrions évaluer et qui donnerait le niveau global de robustesse ou force de la mesure (comprendre sa capacité à résister à la menace envisagée) ?

Existence : c’est une valeur binaire, soit la mesure existe, soit elle n’existe pas. Si la mesure n’existe pas, notre évaluation est très rapide.
Pertinence : on analyse la pertinence de la mesure à résister à la menace envisagée. C’est une estimation dans l’absolu, dans le cas où elle serait pleinement efficace.
Importance : on analyse les capacités de résistance relatives à la nature de la mesure. Elle peut donner lieu à une pondération. Par exemple prévenir une attaque web est plus important que de la détecter après coup (poids supérieur). Mais comme on sait qu’on ne peut pas être sûrs à 100% que les mesures préventives fonctionnent, des mesures réactives sont nécessaires (poids inférieur).
Couverture: la mesure doit s’appliquer à l’ensemble du périmètre étudié. Il se peut que la mesure ne s’applique qu’à un seul composant sur deux ou trois, dans ce cas la couverture sera partielle.
Efficacité : pour que la mesure soit efficace, elle doit pouvoir être opérée de manière uniforme par un personnel correctement formé et adéquatement documentée. L’efficacité ne peut jamais raisonnablement être de 100% dans la vraie vie.
Indice de confiance : si les critères sont renseignés directement par les parties prenantes avec très peu de vérification par une entité plus objective, si la documentation en soutien est partielle ou pas à jour ou bien si les éléments probants sont peu fiables (p. ex. déclaratifs), on ne voudra pas appliquer un indice de confiance très élevé.

Voici donc les critères utiles pour évaluer de manière reproductible les mesures de contrôle. Il est possible d’utiliser les valeurs classiques d’une distribution statistique normale qui correspondent à une échelle sur 4 niveaux.

On peut résumer tout cela dans un tableau qui pourrait faire partie d’un tableau de calculs accompagnant l’analyse de risque :

Exemple d’implémentation (en bas les exemples de listes de choix pour les formules)

La formule calcule la moyenne des pourcentages de chaque colonne avant de multiplier par la valeur binaire de l’existence ou non de la mesure en question , ce qui pour effet de maintenir la valeur de moyenne ou de l’annuler.

On répartit le calcul selon que la mesure évaluée est préventive et affecterait principalement la probabilité d’occurrence ou que la mesure évaluée est réactive et affecterait principalement la magnitude d’impact. Il faut ensuite répercuter ce résultat d’une manière ou d’une autre sur le calcul initial du niveau de risque inhérent, plus précisément de la probabilité initiale ou inhérente et la magnitude d’impact initiale ou inhérente afin de venir en modifier les valeurs.

Cette manière simplifiée s’accorde aussi bien à des méthodes qualitatives que quantitatives ou hybrides (semi-quantitatives). Elle fournit un cadre qui limite les options pour l’analyste et l’oblige à la fin du processus de justifier le calcul, ce qui est une partie essentielle de l’évaluation. Il faut s’efforcer de garder une transparence complète sur l’évaluation et permettre ainsi aux parties intéressées de challenger ce résultat.

Dans l’idéal, en amont de la phase d’analyse de risque, on prépare le référentiel de mesures choisi (par défaut le cadre documentaire interne) de sorte à décrire en avance les critères appliqués. C’est un long processus qui met du temps avant de s’Affiner si bien que si on veut démarrer avec plus de mille mesures on risque de ne jamais livrer ce qui est attendu. Il vaut mieux choisir un cadre plus modeste comme le CSF 2.0 et le mettre à jour progressivement, au fil de son utilisation, en ajoutant ou en précisant les mesures à l’aide de l’expertise interne ou d’un référentiel de mesures complémentaire.

Ci-dessous un exemple de référentiel personnalisé permettant d’ajouter nos propres critères d’évaluation :

Certains référentiels utilisent le cadre CMMI (Capability Maturity Model Integration) pour mesurer la bonne implémentation de chaque mesure. C’est intéressant de s’en inspirer pour des critères génériques, mais il ne faut pas oublier que le niveau de maturité est réservé aux processus et non aux technologies, si bien que si on évalue une mesure purement technologique, on ne va pas réussir à capter ce qui est vraiment attendu et on risque, par exemple, de donner une importance excessive à de la documentation.

C’est un sujet passionnant qui mériterait un article plus long (ou une demande d’intervention) et particulièrement crucial dans l’évaluation des risques car il existe peu de méthodologies détaillant cette phase. Si le reste de l’analyse et de l’évaluation a été correctement réalisé, cette partie est souvent mal expliquée et les parties prenantes on de la misère à comprendre comment on est passé comme par magie d’un certain niveau de risque initial à un autre niveau de risque résiduel. Détailler la méthode d’évaluation est donc une étape qu’il ne faut pas négliger pour montrer une transparence totale et démontrer qu’il existe un cadre, certes pas parfait, mais qui repose sur une logique qu’il est possible d’expliquer.

Igor S., CISSP, CRISC, FAIR, ISO 27001, etc.