http://www.intelligenceonline.fr/networks/files/512/512.asp?rub=networks
Technologies de renseignement: Le marché du traitement des données de masse en plein boom Avec un marché d'un milliard de dollars pour 2005 et une croissance estimée à 20% par an, le secteur des outils d'analyse de données de masse - "Intelligence and Security Informatics / Analytics (ISI)" - est en pleine explosion. Une étude du secteur ISI vient d'être réalisée aux Etats-Unis par le Chesapeake Innovation Center, principal incubateur de technologies de Homeland Security, en partenariat avec la banque d'investissement de New York, C.E. Unterberg, Towbin (CEUT). Intitulée "The Business of Connecting Dots", l'étude identifie les principaux fournisseurs de solutions (voir schéma ci-dessous) et les vecteurs de croissance du secteur. L'augmentation des écoutes téléphoniques (+20% par an) exige d'importants moyens pour traiter les données interceptées qui, en outre, transitent de plus en plus sur les réseaux numériques (voix sous IP). De plus, gouvernements et entreprises commencent à déployer massivement des systèmes intelligents de vidéosurveillance. Le passage à la vidéo numérique a créé de nouvelles capacités de traitement et de mise en réseau des données (tracking, alertes automatiques). Enfin de nouvelles contraintes légales (USA Patriot Act, notamment) exigent des entreprises d'importantes capacités d'analyse des informations sur leurs clients et partenaires, dans le cadre de la lutte contre le financement du terrorisme et le blanchiment d'argent. Très récemment, les géants de l'informatique ont fait leur entrée dans l'ISI. En août, IBM a lancé sa plateforme open source de traitement de données non structurées, Unstructured Information Management Architecture (UIMA). Simultanément, le spécialiste mondial du stockage de données EMC Corporation dévoilait son infrastructure Surveillance Analysis and Management Solution (SAMS), dédiée à la sécurité physique des infrastructures. En octobre, Microsoft et Motorola ont annoncé un partenariat pour la définition d'une architecture d'intégration et de partage d'informations destinée aux forces de l'ordre. Même Google se lance dans l'ISI, secteur jusqu'ici largement dominé par SAIC. http://blogs.zdnet.fr/index.php/2005/11/27/datamining/ Datamining Ce dessin est le résultat d'une étude un peu ancienne, menée en 1999, et qui concluait que le Web avait une forme de nud papillon. Vu que l'on ne sait plus si ceci est toujours vrai, je ne vous parlerai pas de ce noeud pap mais de datamining. Le lien est simple : IBM a fait cette étude théorique au siècle dernier et il en est sorti un produit appelé Webfountain. L'étude en question a été menée, entre autre, par un britannique de 34 ans, Andrew Tomkins, un des experts les plus réputés dans le domaine de l'analyse de contenu et de la collecte de données en approche heuristique. Webfountain est un produit « business on demand », un produit d'intelligence économique, un super robot (crawler) capable d'aspirer 100% de la toile en 32 heures, des algorithmes performants, des techniques de balisage sémantique, un moteur à l'architecture évolutive... Pas facile de trouver de l'information sur ce produit et pourtant on peut penser que depuis trois ans IBM n'est pas resté assis sur cette merveille de technologie. Webfountain est commercialisé par Factiva, quelques grandes sociétés du TOP500 l'utilisent déjà pour leur études de marché. Que font-elles avec ? Y a-t-il lieu de s'inquiéter pour notre liberté ? Au fait, c'est quoi exactement le datamining ? Le datamining ou fouilles de données consiste à chercher à la fois la question et la réponse toutes deux enfouies dans une botte de données gigantesque. L'approche est très différente de la méthode statistique : cette dernière exige en effet qu'on se fixe une hypothèse, que les données confirmeront ou non. Le datamining, au contraire, fait émerger à partir des données brutes des hypothèses que souvent l'expérimentateur ne soupçonne même pas. Voir article ZDNet. Quelqu'un a dit que le datamining consistait à « trouver des diamants dans un tas de charbon sans se salir les doigts ». Parmi les utilisations du datamining : · l'analyse comportementale des consommateurs : ventes croisées, similarités de comportements, cartes de fidélité, ... · la prédiction de réponse à un mailing ou à une opération de marketing · la prédiction de la fuite des clients : quels sont les indices de comportements permettant de détecter la probabilité qu'un client a de quitter son fournisseur · la détection de comportements anormaux ou frauduleux (transactions financières, escroquerie aux assurances, distribution d'énergie, ...) Les outils de textmining associent aux principes du datamining l'analyse lexicographique des données non structurées, les réponses à des questionnaires ou à des enquêtes, les réclamations, ... en tentant de déterminer par exemple le degré de satisfaction (ou d'insatisfaction) de la clientèle. Les premiers essais de fouilles de données se firent historiquement sur des dépouillements de millions de tickets de caisse. On cite la mise en évidence par les magasins Wal-Mart d'une corrélation très forte entre l'achat de couches pour bébés et de bière le samedi après-midi. Les analystes s'aperçurent alors qu'il s'agissait des messieurs envoyés au magasin par leur dame pour acheter les volumineux paquets de couches pour bébé. Les rayons furent donc réorganisés pour présenter côte à côte les couches et les packs de bière ... dont les ventes grimpèrent en flèche ! Se non è vero... Autres questions livrées à votre sagacité : · Est-ce que les gens qui achètent de la bière achètent en même temps du potage aux nouilles ? ». (ne cherchez pas, il n'y a pas de contrepèterie) · Faut-il baisser le prix du beaujolais pour augmenter la consommation de cacahuètes ? · Est-ce que les gens qui achètent du beaujolais primeur ont acheté des fruits rouges et des bananes dans l'été qui précède ? · Est-ce que les gens d'IBM vont se contenter du marché du datamining où vont-ils se lancer dans le marché grand public du moteur de recherche ? Pour la dernière question essayez « IBM robots couche culotte » sur Google.
