Avant de pouvoir utiliser nos données, nous devons nous assurer qu’elles sont valides, précises et fiables. À l’ère du Big Data, les entreprises peuvent dépenser autant ou plus pour maintenir la santé et nettoyer leurs données qu’elles dépensent pour les collecter ou les acheter en premier lieu. Considérez les problèmes qui peuvent découler de valeurs manquantes ou erronées, de doublons et de fautes de frappe. La validité, la précision et la fiabilité de vos calculs dépendent de votre capacité à maintenir vos données à jour. De nombreuses estimations montrent qu’environ 30% de vos données peuvent devenir inexactes au fil du temps (JD Supra, 2019; Strategic DB, 2019) et même de petits ensembles de données peuvent être coûteux à nettoyer, sans parler des fichiers qui sont profonds de dizaines ou de centaines de milliers d’enregistrements – ou beaucoup plus si vous utilisez des bases de données à grande échelle.

Il existe de nombreuses solutions de nettoyage de données pour un large éventail de formats de fichiers, de volumes de données ou de budgets. Cependant, nous pouvons accomplir de nombreuses choses en utilisant les fonctions et fonctionnalités d’Excel afin que vous puissiez traiter nos données rapidement et efficacement. Au lieu d’acheter une application, d’affecter le nettoyage des données à un employé ou d’embaucher un service pour nettoyer vos données, pour des enregistrements inférieurs à un million par feuille, Excel peut vous faire économiser beaucoup de temps et d’argent en utilisant une variété de fonctions et de fonctionnalités. Le tableau 10.1 vous montre quelques fonctions importantes qui peuvent vous aider à nettoyer vos données.

CLEAN Supprime tous les caractères non imprimables du texte.
TRIM Supprime tous les espaces du texte à l’exception des espaces uniques entre les mots.
CONCATÉNEZ Joignez deux chaînes de texte ou plus en une seule chaîne.
LEFT Renvoie une chaîne contenant un nombre spécifié de caractères du côté gauche d’une chaîne.
RIGHT Renvoie une chaîne contenant un nombre spécifié de caractères du côté droit d’une chaîne.
MID Renvoie un nombre spécifique de caractères d’une chaîne de texte.
SEARCH SEARCH renvoie le numéro du caractère auquel un caractère ou une chaîne de texte spécifique est trouvé pour la première fois.
RECHERCHEZ et FINDB Localisez une chaîne de texte dans une deuxième chaîne de texte.
UPPER Convertit le texte en majuscules.
LOWER Convertit le texte en minuscules.
PROPER Met en majuscule la première lettre d’une chaîne de texte et toutes les autres lettres du texte qui suivent un caractère autre qu’une lettre. Convertit toutes les autres lettres en minuscules.
TEXTE Modifiez l’apparence d’un nombre en lui appliquant une mise en forme avec des codes de format.
La VALEUR Convertit une chaîne de texte qui représente un nombre en nombre.

Tableau 10.1 Un exemple de fonctions de nettoyage de texte et de données dans Excel.

Les sections suivantes montrent les fonctions ci-dessus en action. Le fichier Ch10_Data_File contient quatre feuilles. La fiche de documentation indique les sources de nos données. La feuille Text_FUNC comporte une variété d’erreurs courantes que vous pouvez voir dans un ensemble de données, y compris des sauts de ligne au mauvais endroit, des espaces supplémentaires ou aucun espace entre les mots, des caractères non imprimés, des majuscules incorrectes ou tout le texte en majuscules, tout le texte en minuscules, des valeurs de données mal formatées. La feuille DataGen_Companies contient un ensemble de données « factices » (plausibles, mais pas réelles) sur les entreprises générées à https://www.generatedata.com/ que l’auteur de ce chapitre a intentionnellement injectées avec des erreurs courantes vues dans les données afin de les déplier et de les traiter dans le but de pratiquer des fonctions Excel pour la section Pratique du chapitre. La feuille Mockaroo_Cars est un ensemble de données « factices » sur les consommateurs et leurs adresses générées à https://mockaroo.com/, cet ensemble de données sera utilisé pour la section Publipostage. Ces deux ensembles de données  » factices » sont archivés ici à des fins éducatives.

La figure 10.1.1 ci-dessous montre la feuille Text_FUNC avec une variété d’erreurs courantes observées dans les données que vous importez à partir d’autres sources. La plage de découpage CONCATÉNÉE & est un exemple de la façon dont une seule ligne de texte peut être créée à partir du contenu de trois lignes en imbriquant deux fonctions Excel. La CONCATÉNATION seule fusionnera les trois cellules en une seule, mais seule, elle ne fait rien sur les espaces supplémentaires que nous voyons dans le texte. TRIM supprimera tous les espaces, ce qui signifie que nous devons ajouter «  » pour qu’Excel ajoute les cellules vides nécessaires entre les mots.

Figure 10.1.1 La feuille Text_FUNC avec le contenu original et nettoyé côte à côte.

La plage de GAUCHE, de DROITE et de MILIEU dans les colonnes A: C illustre un autre ensemble commun de fonctions utilisées pour traiter les données. Souvent, les données sont regroupées en gros morceaux fusionnés. Bien que nous puissions utiliser la fonction Data > Text to Columns avec des délimiteurs pour indiquer à Excel où nous voulons diviser nos données, les fonctions LEFT, RIGHT, MID traiteront les données de certaines directions en fonction de l’emplacement dans la chaîne du texte ou du nombre que nous souhaitons extraire. B9 et B10 montrent un numéro de pièce dont nous pouvons extraire des parties en utilisant la fonction MID en C9, C10. B12 et B13 montrent les numéros de cours nous pouvons extraire des parties de l’utilisation des fonctions DROITE et GAUCHE en C12, C13.

La figure 10.1.2 montre les formules dans les colonnes A:C pour illustrer la combinaison de CONCATÉNATION et de TRIM imbriqués de différentes manières pour trouver la meilleure configuration pour afficher notre texte de la manière dont nous voulons que notre texte apparaisse avec la syntaxe pour les affichages de GAUCHE, de DROITE et de MILIEU en dessous.

Figure 10.1.2 La feuille Text_FUNC avec l’option « Afficher les formules » activée pour les colonnes A: C.

La figure 10.1.3 ci-dessous montre les formules des colonnes F: H pour illustrer la différence entre RECHERCHER et RECHERCHER, ainsi que les fonctions SUPÉRIEURE, INFÉRIEURE, APPROPRIÉE, VALEUR et TEXTE utilisées pour produire le contenu des données de ces plages.

Figure 10.1.3 Le Text_FUNC avec l’option « Afficher les formules » activée pour les colonnes F:H.

Visitez le site officiel de Microsoft pour une liste des fonctions de texte courantes dans Excel.

Observez la variété des tâches que vous pouvez accomplir en utilisant des formules relativement simples et des alternatives imbriquées.

 » Remarque: Bien que vous puissiez utiliser la fonction TEXTE pour modifier la mise en forme, ce n’est pas le seul moyen. Vous pouvez modifier le format sans formule en appuyant sur CTRL +1 (ou sur l’image  de l'icône du bouton de commande MAC +1 sur le Mac), puis choisissez le format souhaité dans la boîte de dialogue Formater les cellules > Numéro (Source). »

Considérez les utilisations possibles de ces fonctions afin de nettoyer vos données. Nous reviendrons sur ces fonctions et l’utilisation des délimiteurs dans la Pratique du chapitre.

ATTRIBUTION

Chapitre d’Emese Felvégi. CC BY-NC-SA 3.0. Ensembles de données factices de https://www.generatedata.com/ et de https://mockaroo.com archivés ici à des fins éducatives.

Attributions des médias

  • Figure_10 -1
  • Figure_10 -2
  • Figure_10-3

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg