Azure ML : Préparation avancée des données


Cet article fait partie d’une série de posts destinés à expliquer le fonctionnement de Azure ML.

Vous pouvez retrouver les précédents articles en cliquant sur ces liens:

Supprimer les valeurs aberrantes.

 

Les valeurs aberrantes sont des valeurs qui sont très éloignées de la masse des valeurs du Dataset,en les conservant on peut fausser les résultats des algorithmes.

 

Il est judicieux de traiters ces valeurs, soit en les supprimant purement et simplement, soit en les modifiant.

 

Le module Clip Values permet de détecter ces valeurs, en sélectionnant les colonnes à analyser,puis de les supprimer ou  de les modifier.

 

 

Normalisation

 

De nombreux algorithmes fonctionnent mieux lorsque les données de l’ensemble des colonnes, sont à la même échelle.

Lorsqu’il existe de grandes différences dans les ordres de grandeur entre les colonnes (par exemple une colonne avec des valeurs s’étendant de 0 à 10 et une autre avec une plage de 10 000 à 10 000 000), il sera nécessaire normaliser les données.

 

Pour procéder à cette normalisation, il faut utiliser le module Normalize Data.

 

 

Vous pouvez sélectionner les colonnes à normaliser, par type de valeurs ou par sélection simple, puis choisir le mode de transformation :

  • Zscore
  • Min-Max
  • Logistic
  • LogNormal
  • Tanh

 

 

Appliquer une fonction mathématique aux données

 

Le module Apply Math Opération permet de sélectionner une ou plusieurs colonnes pour appliquer une fonction mathématique standard.

 

 

La liste complète des fonctions utilisables peut être consultée sur le site de microsoft :

https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/apply-math-operation

 

Sélection de critères

 

Parfois votre Dataset contiendra des informations redondantes, des colonnes apportant peu d’information à l’algorithme (un numéro de ligne, par exemple.)

Il faudra donc se débarasser des redondances et des informations de faible intérêt.

 

ML Studio propose deux modules pour répondre à ce besoin :

 

1  Module Filter Based Feature Selection

 

 

Tout d’abord, vous devez sélectionner l’agorithme qui va nous servir à discriminer les colonnes :

 

  • Pearson’s correlation
  • Mutual information
  • Kendall’s correlation
  • Spearman’s correlation
  • Chi squared
  • Fisher score
  • Count based

 

Le choix de l’algorithme dépendra du type de données dont vous disposez (numériques, catégorielles…)

 

Ensuite vous devrez sélectionner la colonne contenant votre variable cible.

 

Enfin vous devrez préciser le nombre de colonnes que vous souhaitez conserver, comme étant les plus significatives.

 

Le résultat sera un nouveau Dataset ne contenant que les 10 colonnes les plus significatives  pour prédire les valeurs d’une 11ème colonne : la variable cible.

 

2  Module  Fischer Linear Discriminant Analysis

 

 

Maintenant que nous avons vu comment préparer les données, il nous reste à choisir un algorithme permettant de résoudre le problème posé.

 

Il existe quatre types d’algorithmes dans ML Studio :

 

  • Régression
  • Classificaton
  • Regroupement
  • Détection d’anomalies

 

Dans cet article vous avez vu comment opérer une préparation avancée des données, avant de les traiter par un ou plusieurs algorithmes. Nous commencerons par étudier les modèles de régression.

 

 

 

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *