Définition du Data Mining

Qu’est ce que : Définition du Data Mining

J’entends depuis longtemps la maxime selon laquelle les données sont le nouveau pétrole, mais si l’on en juge par le nom d’une des disciplines qui s’occupe de leur exploitation et de leur utilisation, ce qu’on appelle le data mining, je l’appellerais plutôt ‘le nouveau charbon’, par analogie avec ses formes d’extraction.

L’exploration de données est une discipline qui consiste à extraire des conclusions de l’analyse statistique automatisée d’une grande collection de données.

Ces données peuvent provenir de nombreuses sources, avoir des structures différentes, ou même ne pas être structurées du tout. L’extraction de données implique donc des systèmes d’intelligence artificielle et d’apprentissage automatique capables de s’adapter aux données non structurées et de les filtrer pour les analyser.
En fin de compte, l’objectif est que les conclusions soient utilisées pour aider à prendre des décisions sur un système donné, qui peut être très varié : du trafic routier dans une ville ou une région, à la disponibilité des pompiers et d’autres services publics pour faire face à d’éventuelles urgences ; il s’agit également de mettre en lumière des modèles qui suivent les données et qui, jusqu’à présent, étaient cachés ou nous ne pouvions pas les voir clairement, au milieu de toute la confusion, la grande quantité de données existantes.

Qu’est-ce qui distingue l’extraction de données du big data ? L’exploration de données ne concerne que l’analyse, tandis que le big data est une discipline qui traite de la saisie et du stockage des données, ainsi que de leur gestion.

Pour analyser correctement des données, il faut d’abord déterminer les objectifs que nous poursuivons avec l’analyse, une série de questions auxquelles nous devons trouver des réponses, car elles nous guideront dans notre recherche.
En partant de ces questions sous forme de prémisses, nous choisissons les données à traiter (il se peut que nous n’ayons besoin que d’une partie de la base de données, et non de la totalité).

La phase de traitement diffère dans chaque cas, et des outils d’intelligence artificielle et d’apprentissage automatique sont utilisés, afin qu’ils puissent s’adapter dynamiquement aux données saisies, en modifiant leur fonctionnement si nécessaire.

Le produit final de ce traitement doit être une série de conclusions, mais ne les confondons pas avec les conclusions que doivent tirer les responsables du système ou ceux qui prennent les décisions finales. Ces conclusions portent sur le volume des données analysées.
Si nous reprenons l’exemple du trafic routier dans une ville, nous pouvons tirer la conclusion qu’une certaine rue reçoit un flux excessif de véhicules, mais le système ne nous donnera pas de recettes magiques pour résoudre cet excès.
Même si le système est doté d’une intelligence artificielle capable de proposer des solutions, il appartiendra toujours au personnel humain d’avoir le dernier mot.

L’exploration de données est appliquée en pratique dans un large éventail de disciplines, y compris la finance.

Ainsi, on peut trouver des applications dans des domaines comme la bourse (pour prédire le comportement des titres), mais aussi dans des secteurs qui ne sont pas strictement financiers mais qui ont une relation étroite avec le secteur, comme les assurances.
Le traitement du langage naturel, les recherches en ligne et les voitures intelligentes sont d’autres disciplines dans lesquelles l’exploration de données est appliquée.