[guerrelec] 20% d'erreurs dans les bases de données opérationnelles

jmm Mon, 16 Jan 2006 08:57:38 -0800

<URL:http://livretousfiches.xwiki.com/xwiki/bin/view/Main/Sourcesdesdoucmentsetcitationsutilisespourcelivre?xpage=comments

Cest dans la deuxième moitié de la décennie quatre-vingt-dix que jairenoué le contact avec le monde du renseignement. Quelques vingt annéesplutôt, javais eu loccasion de me frotter au renseignement et plusparticulièrement à la problématique du terrorisme. Dès ma reprise decontact, jai pu constater que le monde avait changé. Pendant la secondemoitié du XXième siècle, le renseignement opérationnel sétaitessentiellement focalisé sur lanalyse du bloc soviétique. Quand nousregardons derrière nous, nous pouvons constater que cette analyse étaitlimpide. Tant du point de vue stratégique, que du point de vue tactique,la doctrine et la pensée soviétiques navaient pas ou peu évolué. Lefacteur géographique nous était familier et nous possédions une bonneconnaissance du volume de leurs forces. La combinaison de ces troisfacteurs, doctrine, terrain et moyen, permettait aux analystes de réaliserune analyse de bonne facture. Dans les années 80, cette analyse sétaitencore affinée par lemploi des nouveaux développements technologiquesfaisant appel à lanalyse des signaux électromagnétiques et aux moyens delimagerie opérationnelle (drones) et stratégique (satellites).Leffondrement de lempire communiste, qui du reste navait pas été prévudune manière si abrupte par la plupart des analystes stratégiques, agénéré un monde unipolaire et également lémergence de conflits régionauxcomme ceux des Balkans. Cest au cours des conflits de Bosnie-Herzégovineet du Kosovo que jai pu exercer mon art de lanalyse et de découvrir lesnouveaux challenges du renseignement dans un monde unipolaire. Lesnouveaux axes du renseignement avaient pour noms : lutte contre lesextrémismes, lutte contre la criminalité organisée et transnationale,lutte contre le terrorisme, lutte contre la criminalité cybernétique.Directement, jai découvert que le contexte général danalyse avait étébouleversé. Pendant toute la période de la guerre froide, linformationqui constitue la matière brute et première du renseignement étaitparcimonieuse ; avec les opérations humanitaires dimposition de la paix,cette information était devenue abondante et même envahissante. Letrop-plein dinformation tue le renseignement en étouffant sous uneavalanche de données quil ne peut gérer. En 1998, javais la convictionque le seul moyen de manager ce flux gigantesque dinformation était detransformer les rapports dinformation rédigé en langage naturel endonnées élémentaires et de les enregistrer dans une base de donnéesrelationnelle. En 2000, sous limpulsion dun officier supérieur de laGendarmerie française, létat-major du SHAPE dotait les quartiers-générauxopérationnels des théâtres dopérations des premiers logiciels danalyse :les outils de Link Analysis (notebook i2 Ltd UK). Je fus dans les premiersanalystes à utiliser ces outils dans les Balkans. Après une période de sixmois dutilisation régulière, jai adressé un rapport dutilisation à lachaîne de commandement en mentionnant que ce logiciel était trèsperformant mais dangereux du point de vue analytique lorsquil et utilisépar des amateurs de lanalyse, et tenu compte de mon expérienceopérationnelle je peux certifier quils sont nombreux. Je faisaiségalement remarquer que pour exploiter tout le potentiel de cet outil, ilfallait disposer dun robuste modèle de données afin de pouvoir échangerles informations entre les centres danalyse. En 2002, en tant queresponsable des implémentations des systèmes de données structurées pourle renseignement en zone centre-europe de lOTAN, je demandais au NC3A,service OTAN équivalent en plus petit au DARPA américain de développer encollaboration ce modèle de données pour le système Link Analysis. Jaiégalement proposé dajouter les outils de data mining dans le « capabilitypackage » du renseignement qui est le document récapitulatif des besoinsen système de gestion du renseignement pour la période jusque 2010. Cettelongue introduction pour vous dire que je connais très bien laproblématique que vous avez soulevée dans votre livre et que malgré lesproblèmes causés par lutilisation des outils de data mining et de linkanalysis, je reste fermement persuadé que ces outils sont actuellementindispensable à lélaboration du renseignement.

Le rôle du renseignement est essentiellement prédictif et a pour but dedéceler les niveaux de menaces à lencontre de nos sociétés. Dans notremonde unipolaire actuel, les sociétés démocratiques libérales sontconfrontées à trois types de menaces : stratégique, opérationnelle ettactique. La menace stratégique peut être matérialisée par le terrorismequi vise à lannihilation des structures fondamentales de lEtat. Lamenace opérationnelle est constituée par les formes de criminalitéstransnationales organisées. La menace tactique est représentative desmultiples formes de la criminalité nationale qui sapent lautorité delEtat ou qui créent un climat de défiance de la population vis-à-vis decet Etat. La lutte contre les menaces tactiques est essentiellement uneresponsabilité des forces de police et de sécurité territoriales. La luttecontre les menaces stratégiques et opérationnelles est le domaine desorganismes de sécurité extérieure, ou du renseignement opérationnel vu lecaractère transnational ou multinational de la menace. En valeur relative,il est possible de quantifier le coefficient de risque pour ces deux typesde menace par rapport à une population donnée. Selon les estimations, leterrorisme correspond à une population risque équivalente comprise entre0,02% pour les estimations les plus pessimistes et 0,0002% pour les plusoptimistes. La menace opérationnelle peut être estimée à un risque entre 1et 10% selon les zones concernées. Vu la valeur de ces ratios, il estindéniable que la statistique classique ne peut proposer des solutionsacceptables pour lanalyse du phénomène terrorisme. Même les outils de laqualité totale (SPC) sont inopérants pour des taux aussi petits. Les seulsoutils actuellement en notre disposition pour trouver une réponse à nossouhaits de sélection dindividus à risque se révèlent être les outils de« Data Mining ». Ces outils sont intéressants à deux titres. En premierlieu, à partir de dindividus reconnus comme dangereux, ils permettent dedéterminer un profil ou comportement à risque. En deuxième lieu, partantdun profil déterminé, ils peuvent extraire dune masse dindividus lesindividus à risque. La plupart des outils de « Data Mining » possèdent uneintelligence artificielle qui leur permet de sadapter à lévolution ducomportement criminel. La sélection des individus à risque requiert laconnaissance de minimum 15 paramètres indépendants. Seuls les outils de «Data Mining » basés sur des algorithmes darbres de décision peuventréaliser des analyses multicritères aussi complexes. Plus les outilsutiliseront de paramètres et plus nous pourrons affiner lanalyse et ainsiréduire le nombre de faux positifs et faux négatifs. Par expérience, jeconfirme votre analyse au sujet des erreurs sur les données. Jaipersonnellement calculé ce taux de 20% dans les bases de donnéesopérationnelles et je peux également affirmer que les bases de donnéesaméricaines ne sont pas exemptes de ces erreurs de données. A côté de cetype derreurs, ce sont principalement les données manquantes que les «data miners » craignent le plus. Cest pour cette raison quil estindispensable de mettre en place des procédures de gestion et dassurancede la qualité dans le processus denregistrement des données.

En ce qui concerne le problème de la confidentialité des données et lerisque de dérapage ou de bavures, je serais plus confiant pour les outilsde « Data Mining » que pour les outils de « Link Analysis » quiconstituent un réel risque de dérapage. Les outils de « Data Mining »tournent sans aucune visualisation des données dans leur phase dedétermination des critères. Dans la phase de sélection des personnes àrisque, seuls les individus satisfaisant aux critères de sélectionapparaîtront sur écran ou en « output ». Il en est tout différemment pourles outils de « Link Analysis » qui opèrent principalement parvisualisation en temps réel des données par « iconisation ». Lavisualisation des données est lune des raisons pour justifierlutilisation des outils de « Data Mining » en amont des outils de « LinkAnalysis » dans la chaîne de traitement de linformation. Il nexisteaucun système parfait garantissant au citoyen toute la confidentialité. Ilappartient aux gouvernants des Nations de mettre en place les structuresde contrôle et de garanties légales de protection des libertésindividuelles. Il ne faut pas se leurrer, les Etats et les gouvernantsseront toujours tentés par les aspects sécuritaires, il faut donc accepterlutilisation des données dans un but de protection pour autant que lesmodalités dutilisation des informations collectées soient régies par deslois et que les pouvoirs exécutifs, législatifs et judiciaires exercentles contrôles adéquats des utilisateurs de ces informations. Il doit enêtre de même pour les organisations internationales où les Etats doiventexercer un contrôle strict des organismes de sécurité et renseignement cequi nest pas le cas actuellement.

Nous ne devons pas reporter la décision de désigner tel individu commesuspect à des machines ou à des logiciels, en final la décision desélectionner un individu appartient à lanalyste et à sa hiérarchie. Leslogiciels et les outils ne sont que des aides à la décision. Contrairementà ce que la vulgarisation cinématographique, principalement américaine,tente de nous monter,les outils informatiques danalyse ou dereconnaissance vocale ou faciale ne nous donnent que très rarement descertitudes, mais le plus souvent des probabilités de réalité. A ce titre,il y a trois ans, jai fait stopper limplémentation dun système dereconnaissance faciale devant être installé dans les Balkans parce que cesystème était loin de satisfaire les besoins des utilisateurs quiespéraient obtenir pour chaque interrogation didentification une réponseunique, ce que le système ne proposait pas. Il en va de même des autressystèmes informatiques de transcription automatique du discours en texte,des systèmes de traduction qui nécessite une relecture approfondie. Neparlons pas des logiciels dextraction des connaissances de textes rédigésen langage naturel qui ne sont pas encore suffisamment matures pour offriraux analystes les résultats désirés.


Philippe DELBRUYERE [EMAIL PROTECTED]
[EMAIL PROTECTED]

[guerrelec] 20% d'erreurs dans les bases de données opérationnelles

Répondre à