Cet article fait partie d’une série de posts destinés à expliquer le fonctionnement de Azure ML.
Vous pouvez retrouver les précédents articles en cliquant sur ces liens:
- http://www.netdaf.com/introduction-au-machine-learning/
- http://www.netdaf.com/azure-ml-premiere-experience/
- http://www.netdaf.com/azure-ml-importer-et-exporter-des-donnees/
- http://www.netdaf.com/azure-ml-preparer-les-donnees/
Supprimer les valeurs aberrantes.
Les valeurs aberrantes sont des valeurs qui sont très éloignées de la masse des valeurs du Dataset,en les conservant on peut fausser les résultats des algorithmes.
Il est judicieux de traiters ces valeurs, soit en les supprimant purement et simplement, soit en les modifiant.
Le module Clip Values permet de détecter ces valeurs, en sélectionnant les colonnes à analyser,puis de les supprimer ou de les modifier.
Normalisation
De nombreux algorithmes fonctionnent mieux lorsque les données de l’ensemble des colonnes, sont à la même échelle.
Lorsqu’il existe de grandes différences dans les ordres de grandeur entre les colonnes (par exemple une colonne avec des valeurs s’étendant de 0 à 10 et une autre avec une plage de 10 000 à 10 000 000), il sera nécessaire normaliser les données.
Pour procéder à cette normalisation, il faut utiliser le module Normalize Data.
Vous pouvez sélectionner les colonnes à normaliser, par type de valeurs ou par sélection simple, puis choisir le mode de transformation :
- Zscore
- Min-Max
- Logistic
- LogNormal
- Tanh
Appliquer une fonction mathématique aux données
Le module Apply Math Opération permet de sélectionner une ou plusieurs colonnes pour appliquer une fonction mathématique standard.
La liste complète des fonctions utilisables peut être consultée sur le site de microsoft :
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/apply-math-operation
Sélection de critères
Parfois votre Dataset contiendra des informations redondantes, des colonnes apportant peu d’information à l’algorithme (un numéro de ligne, par exemple.)
Il faudra donc se débarasser des redondances et des informations de faible intérêt.
ML Studio propose deux modules pour répondre à ce besoin :
1 Module Filter Based Feature Selection
Tout d’abord, vous devez sélectionner l’agorithme qui va nous servir à discriminer les colonnes :
- Pearson’s correlation
- Mutual information
- Kendall’s correlation
- Spearman’s correlation
- Chi squared
- Fisher score
- Count based
Le choix de l’algorithme dépendra du type de données dont vous disposez (numériques, catégorielles…)
Ensuite vous devrez sélectionner la colonne contenant votre variable cible.
Enfin vous devrez préciser le nombre de colonnes que vous souhaitez conserver, comme étant les plus significatives.
Le résultat sera un nouveau Dataset ne contenant que les 10 colonnes les plus significatives pour prédire les valeurs d’une 11ème colonne : la variable cible.
2 Module Fischer Linear Discriminant Analysis
Maintenant que nous avons vu comment préparer les données, il nous reste à choisir un algorithme permettant de résoudre le problème posé.
Il existe quatre types d’algorithmes dans ML Studio :
- Régression
- Classificaton
- Regroupement
- Détection d’anomalies
Dans cet article vous avez vu comment opérer une préparation avancée des données, avant de les traiter par un ou plusieurs algorithmes. Nous commencerons par étudier les modèles de régression.