http://www.intelligenceonline.fr/networks/files/512/512.asp?rub=networks

Technologies de renseignement: Le marché du traitement des données de
masse en plein boom
Avec un marché d'un milliard de dollars pour 2005 et une croissance
estimée à 20% par an, le secteur des outils d'analyse de données de
masse - "Intelligence and Security Informatics / Analytics (ISI)" - est
en pleine explosion.
Une étude du secteur ISI vient d'être réalisée aux Etats-Unis par
le Chesapeake Innovation Center, principal incubateur de technologies
de Homeland Security, en partenariat avec la banque d'investissement de
New York, C.E. Unterberg, Towbin (CEUT). Intitulée "The Business of
Connecting Dots", l'étude identifie les principaux fournisseurs de
solutions (voir schéma ci-dessous) et les vecteurs de croissance du
secteur. L'augmentation des écoutes téléphoniques (+20% par an)
exige d'importants moyens pour traiter les données interceptées qui,
en outre, transitent de plus en plus sur les réseaux numériques (voix
sous IP). De plus, gouvernements et entreprises commencent à déployer
massivement des systèmes intelligents de vidéosurveillance. Le
passage à la vidéo numérique a créé de nouvelles capacités de
traitement et de mise en réseau des données (tracking, alertes
automatiques). Enfin de nouvelles contraintes légales (USA Patriot
Act, notamment) exigent des entreprises d'importantes capacités
d'analyse des informations sur leurs clients et partenaires, dans le
cadre de la lutte contre le financement du terrorisme et le blanchiment
d'argent. Très récemment, les géants de l'informatique ont fait leur
entrée dans l'ISI. En août, IBM a lancé sa plateforme open source de
traitement de données non structurées, Unstructured Information
Management Architecture (UIMA). Simultanément, le spécialiste mondial
du stockage de données EMC Corporation dévoilait son infrastructure
Surveillance Analysis and Management Solution (SAMS), dédiée à la
sécurité physique des infrastructures. En octobre, Microsoft et
Motorola ont annoncé un partenariat pour la définition d'une
architecture d'intégration et de partage d'informations destinée aux
forces de l'ordre. Même Google se lance dans l'ISI, secteur jusqu'ici
largement dominé par SAIC.


http://blogs.zdnet.fr/index.php/2005/11/27/datamining/

Datamining

Ce dessin est le résultat d'une étude un peu ancienne, menée en
1999, et qui concluait que le Web avait une forme de nœud papillon. Vu
que l'on ne sait plus si ceci est toujours vrai, je ne vous parlerai
pas de ce noeud pap mais de datamining.

Le lien est simple : IBM a fait cette étude théorique au siècle
dernier et il en est sorti un produit appelé Webfountain. L'étude
en question a été menée, entre autre, par un britannique de 34 ans,
Andrew Tomkins, un des experts les plus réputés dans le domaine de
l'analyse de contenu et de la collecte de données en approche
heuristique.

Webfountain est un produit « business on demand », un produit
d'intelligence économique, un super robot (crawler) capable
d'aspirer 100% de la toile en 32 heures, des algorithmes performants,
des techniques de balisage sémantique, un moteur à l'architecture
évolutive...
Pas facile de trouver de l'information sur ce produit et pourtant on
peut penser que depuis trois ans IBM n'est pas resté assis sur cette
merveille de technologie. Webfountain est commercialisé par Factiva,
quelques grandes sociétés du TOP500 l'utilisent déjà pour leur
études de marché. Que font-elles avec ? Y a-t-il lieu de
s'inquiéter pour notre liberté ?

Au fait, c'est quoi exactement le datamining ?
Le datamining ou fouilles de données consiste à chercher à la fois
la question et la réponse toutes deux enfouies dans une botte de
données gigantesque. L'approche est très différente de la méthode
statistique : cette dernière exige en effet qu'on se fixe une
hypothèse, que les données confirmeront ou non. Le datamining, au
contraire, fait émerger à partir des données brutes des hypothèses
que souvent l'expérimentateur ne soupçonne même pas. Voir article
ZDNet.

Quelqu'un a dit que le datamining consistait à « trouver des
diamants dans un tas de charbon sans se salir les doigts ».

Parmi les utilisations du datamining :

· l'analyse comportementale des consommateurs : ventes croisées,
similarités de comportements, cartes de fidélité, ...
· la prédiction de réponse à un mailing ou à une opération de
marketing
· la prédiction de la fuite des clients : quels sont les indices de
comportements permettant de détecter la probabilité qu'un client a
de quitter son fournisseur
· la détection de comportements anormaux ou frauduleux (transactions
financières, escroquerie aux assurances, distribution d'énergie,
...)

Les outils de textmining associent aux principes du datamining
l'analyse lexicographique des données non structurées, les
réponses à des questionnaires ou à des enquêtes, les réclamations,
... en tentant de déterminer par exemple le degré de satisfaction (ou
d'insatisfaction) de la clientèle.

Les premiers essais de fouilles de données se firent historiquement
sur des dépouillements de millions de tickets de caisse. On cite la
mise en évidence par les magasins Wal-Mart d'une corrélation très
forte entre l'achat de couches pour bébés et de bière le samedi
après-midi. Les analystes s'aperçurent alors qu'il s'agissait
des messieurs envoyés au magasin par leur dame pour acheter les
volumineux paquets de couches pour bébé. Les rayons furent donc
réorganisés pour présenter côte à côte les couches et les packs
de bière ... dont les ventes grimpèrent en flèche !
Se non è vero...

Autres questions livrées à votre sagacité :

· Est-ce que les gens qui achètent de la bière achètent en même
temps du potage aux nouilles ? ». (ne cherchez pas, il n'y a pas de
contrepèterie)
· Faut-il baisser le prix du beaujolais pour augmenter la
consommation de cacahuètes ?
· Est-ce que les gens qui achètent du beaujolais primeur ont acheté
des fruits rouges et des bananes dans l'été qui précède ?
· Est-ce que les gens d'IBM vont se contenter du marché du
datamining où vont-ils se lancer dans le marché grand public du
moteur de recherche ?

Pour la dernière question essayez « IBM robots couche culotte » sur
Google.

Répondre à