Power Query – Fichiers textes non délimités


Commençons par accéder aux données :

Si ce n'est déjà fait, vous pouvez télécharger les fichiers sources sur le site de l'excellent  livre M is for (Data) Monkey écrit par Ken Puls et Miguel Escobar  dont nous nous sommes inspiré Télécharger les fichiers pour écrire ce post.

  • Obtenir les données -->Texte/CSV-->Ch07 Examples/GL Jan-Mar.TXT
  • Modifier

Power query charge alors les données dans une seule colonne, ce qui est la meilleure solution pour un fichier non structuré.

 

 

Nous allons devoir pratiquer les modifications manuellement :

Les dix premières lignes ne présentent pas d'intérêt, supprimons les :

  • Accueil-->Supprimer les lignes -->Supprimer les lignes du haut-->10

Une fois ces lignes supprimées, nous obtenons une colonne unique avec des données présentées sous forme tabulaire. Il nous reste à déterminer comment fractionner ces colonnes.

Il faut d'abord supprimer les espaces inutiles à droite et à gauche :

  • Clic droit-->Transformer-->Supprimer les espaces

De plus, nous devons supprimer tous les caractères invisibles :

  • Clic droit --> Transformer --> Nettoyer

Maintenant, nous pouvons fractionner les colonnes selon un nombre de caractères :

  • Transformer-->Fractionner la colonne-->Par nombre de caractères-->10-->Une fois, le plus à gauche possible.

La colonne date est ainsi isolée, il reste alors à répéter le processus pour les autres colonnes.

Pour la dernière colonne, nous utiliserons le "-" comme délimitateur :

  • Clic droit --> Fractionner la colonne-->Par délimiteur-->  - 

 

 

 

Nous pouvons promouvoir la première ligne comme entête, puis renommer les colonnes.

Enfin, nous pouvons sélectionner toutes les colonnes et recommencer l'opération 

  • Supprimer les espaces
  • Nettoyer

Comme nous pouvons le constater il y a de nombreux déchets dans les données.

 

Pour régler ce problème, nous pouvons modifier le type de la colonne [Date] en Date, en utilisant les paramètres régionaux.

En plus des dates valides, nous avons des erreurs et des null.

  • Accueil --> Supprimer les lignes --> Supprimer les erreurs.
  • Filtrer les Dates, décocher null

Nous pouvons effectuer des opérations sur les autres colonnes, en changeant leur type avant de supprimer les erreurs.

Nous avons maintenant une requête qui permet de transformer les Données de n'importe quel fichier de format identique, sans refaire le travail, le gain de temps et de productivité peut être considérable.

 

 

 

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *