Prima di poter lavorare con i nostri dati, dobbiamo assicurarci che siano validi, accurati e affidabili. Nell’era dei Big Data, le aziende possono spendere tanto o più per mantenere la salute e pulire i loro dati quanto spendono per raccoglierli o acquistarli in primo luogo. Considera i problemi che possono derivare da valori, duplicati e errori di battitura mancanti o errati. La validità, l’accuratezza e l’affidabilità dei calcoli dipendono dalla capacità di mantenere aggiornati i dati. Molte stime mostrano che circa il 30% dei dati potrebbe diventare impreciso nel tempo (JD Supra, 2019; Strategic DB, 2019) e anche piccoli set di dati possono essere costosi da pulire, per non parlare dei file che sono decine o centinaia di migliaia di record in profondità – o molto di più se si utilizzano database su larga scala.

Esistono molte soluzioni di pulizia dei dati per una vasta gamma di formati di file, volumi di dati o budget. Tuttavia, ci sono molte cose che possiamo realizzare utilizzando le funzioni e le funzionalità di Excel in modo da poter elaborare i nostri dati in modo rapido ed efficace. Invece di acquistare un’applicazione, assegnare la pulizia dei dati a un dipendente o assumere un servizio per strofinare i dati, per record sotto un milione per foglio, Excel può risparmiare una grande quantità di tempo e fondi utilizzando una varietà di funzioni e caratteristiche. La tabella 10.1 mostra alcune importanti funzioni che possono aiutarti a ripulire i tuoi dati.

CLEAN Rimuove tutti i caratteri non stampabili dal testo.
TRIM Rimuove tutti gli spazi dal testo ad eccezione dei singoli spazi tra le parole.
CONCATENARE Unire due o più stringhe di testo in una stringa.
LEFT Restituisce una stringa contenente un numero specificato di caratteri dal lato sinistro di una stringa.
RIGHT Restituisce una stringa contenente un numero specificato di caratteri dal lato destro di una stringa.
MID Restituisce un numero specifico di caratteri da una stringa di testo.
SEARCH SEARCH restituisce il numero del carattere in cui viene trovato per la prima volta un carattere specifico o una stringa di testo.
TROVA e FINDB Individua una stringa di testo all’interno di una seconda stringa di testo.
UPPER Converte il testo in maiuscolo.
LOWER Converte il testo in minuscolo.
PROPER Capitalizza la prima lettera in una stringa di testo e tutte le altre lettere nel testo che seguono qualsiasi carattere diverso da una lettera. Converte tutte le altre lettere in lettere minuscole.
TESTO Cambia il modo in cui appare un numero applicando la formattazione ad esso con i codici di formato.
VALORE Converte una stringa di testo che rappresenta un numero in un numero.

Tabella 10.1 Un esempio di funzioni di pulizia di testo e dati in Excel.

Le sezioni seguenti mostrano le funzioni di cui sopra in azione. Il file ch10_data_ contiene quattro fogli. La scheda di documentazione riporta le fonti dei nostri dati. Il foglio Text_FUNC presenta una serie di errori comuni che potresti vedere in un set di dati, tra cui interruzioni di riga nel posto sbagliato, spazi aggiuntivi o spazi tra parole, caratteri non stampabili, maiuscole in modo improprio o tutti maiuscoli, tutto il testo minuscolo, valori di dati mal formattati. Il foglio DataGen_Companies contiene una serie di dati “fittizi” (plausibili, ma non reali) sulle aziende generate a https://www.generatedata.com/ che l’autore di questo capitolo ha intenzionalmente iniettato con errori comuni visti nei dati al fine di spiegarlo ed elaborarlo per praticare le funzioni di Excel per la sezione Pratica del capitolo. Il foglio Mockaroo_Cars è un set di dati” fittizio ” sui consumatori e i loro indirizzi generati in https://mockaroo.com/, questo set di dati verrà utilizzato per la sezione Stampa unione. Entrambi questi set di dati” fittizi ” sono archiviati qui per scopi didattici.

La figura 10.1.1 di seguito mostra il foglio Text_FUNC con una serie di errori comuni riscontrati nei dati importati da altre fonti. L’intervallo di ritaglio CONCATENATE & è un esempio di come una singola riga di testo può essere creata dal contenuto di tre righe nidificando due funzioni di Excel. CONCATENATE da solo unirà le tre celle in una, ma da solo, non fa nulla sugli spazi extra che vediamo nel testo. TRIM rimuoverà tutti gli spazi, il che significa che dobbiamo aggiungere “” in modo che Excel aggiunga le celle vuote necessarie tra le parole.

Figura 10.1.1 Il foglio Text_FUNC con contenuto originale e pulito fianco a fianco.

La gamma SINISTRA, DESTRA, MEDIA nelle colonne A:C illustra un altro insieme comune di funzioni utilizzate per elaborare i dati. Spesso i dati vengono in grandi blocchi uniti insieme. Mentre possiamo usare la funzione Data > Text to Columns con delimitatori per dire a Excel dove vogliamo dividere i dati, le funzioni LEFT, RIGHT, MID elaboreranno i dati da determinate direzioni a seconda di dove nella stringa è il testo o il numero che vogliamo estrarre. B9 e B10 mostrano un numero di parte possiamo estrarre porzioni di utilizzo della funzione MID in C9, C10. B12 e B13 mostrano i numeri del corso possiamo estrarre porzioni di utilizzare le funzioni DESTRA e SINISTRA in C12, C13.

La figura 10.1.2 mostra le formule nelle colonne A:C per illustrare la combinazione di CONCATENATE e TRIM nidificata in una varietà di modi per trovare la migliore configurazione per produrre il modo in cui vogliamo che il nostro testo appaia con la sintassi per LEFT, RIGHT e MID che mostra sotto.

Figura 10.1.2 Il foglio Text_FUNC con l’opzione” Mostra formule ” abilitata per le colonne A:C.

Figura 10.1.3 di seguito mostra le formule nelle colonne F: H per illustrare la differenza tra TROVA e CERCA, oltre a mostrare le funzioni SUPERIORE, INFERIORE, CORRETTA, VALORE e TESTO utilizzate per produrre il contenuto dei dati in tali intervalli.

Figura 10.1.3 Text_FUNC con l’opzione” Mostra formule ” abilitata per le colonne F: H.

Visita il sito ufficiale di Microsoft per un elenco di funzioni di testo comuni in Excel.

Osserva la varietà di attività che puoi ottenere utilizzando formule relativamente semplici e alternative nidificate.

“Nota: Anche se è possibile utilizzare la funzione di testo per modificare la formattazione, non è l’unico modo. È possibile modificare il formato senza una formula premendo CTRL+1 (o Immagine dell'icona del pulsante di comando MAC +1 sul Mac), quindi selezionare il formato desiderato dalla finestra di dialogo Formato celle > Numero (Fonte).”

Considera i possibili usi di queste funzioni per pulire i tuoi dati. Rivedremo queste funzioni e l’uso dei delimitatori nel capitolo Pratica.

ATTRIBUZIONE

Capitolo di Emese Felvégi. CC BY-NC-SA 3.0. Set di dati fittizi da https://www.generatedata.com/ e da https://mockaroo.com archiviati qui per scopi didattici.

Attribuzioni dei media

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg