înainte de a putea lucra cu datele noastre, trebuie să ne asigurăm că sunt valide, exacte și fiabile. În epoca datelor mari, companiile pot cheltui la fel de mult sau mai mult pentru menținerea sănătății și curățarea datelor pe cât cheltuiesc pentru colectarea sau achiziționarea acestora în primul rând. Luați în considerare problemele care pot rezulta din valori, duplicate și greșeli lipsă sau greșite. Validitatea, acuratețea și fiabilitatea calculelor dvs. depind de capacitatea dvs. de a vă menține datele actualizate. Multe estimări arată că aproximativ 30% din datele dvs. pot deveni inexacte în timp (JD Supra, 2019; strategic DB, 2019) și chiar seturi mici de date pot fi costisitoare de curățat, să nu mai vorbim de fișiere care sunt zeci sau sute de mii de înregistrări adânci – sau mult mai mult dacă utilizați baze de date la scară largă.

există multe soluții de curățare a datelor pentru o gamă largă de formate de fișiere, volume de date sau bugete. Cu toate acestea, există multe lucruri pe care le putem realiza folosind funcții și funcții Excel, astfel încât să puteți procesa datele noastre rapid și eficient. În loc să cumpărați o aplicație, să alocați curățarea datelor unui angajat sau să angajați un serviciu pentru a vă curăța datele, pentru înregistrări sub un milion pe foaie, Excel vă poate economisi mult timp și fonduri folosind o varietate de funcții și caracteristici. Tabelul 10.1 vă prezintă câteva funcții importante care vă pot ajuta să vă curățați datele.

CLEAN elimină toate caracterele neimprimabile din text.
TRIM elimină toate spațiile din text, cu excepția spațiilor unice dintre cuvinte.
concatenați alăturați două sau mai multe șiruri de text într-un singur șir.
stânga returnează un șir care conține un număr specificat de caractere din partea stângă a unui șir.
dreapta returnează un șir care conține un număr specificat de caractere din partea dreaptă a unui șir.
MID returnează un anumit număr de caractere dintr-un șir de text.
căutare căutare returnează numărul de caractere la care un anumit caracter sau șir de text este găsit pentru prima dată.
găsiți și găsiți localizați un șir de text într-un al doilea șir de text.
UPPER convertește textul în majuscule.
LOWER convertește textul în litere mici.
propriu capitalizează prima literă dintr-un șir de text și orice alte litere din text care urmează oricărui alt caracter decât o literă. Convertește toate celelalte litere la Litere Mici.
TEXT modificați modul în care apare un număr aplicându-i formatarea cu coduri de format.
valoarea convertește un șir de text care reprezintă un număr la un număr.

tabelul 10.1 un eșantion de funcții de curățare a textului și a datelor în Excel.

următoarele secțiuni prezintă funcțiile de mai sus în acțiune. Fișierul Ch10_Data_File conține patru foi. Fișa de documentare notează sursele datelor noastre. Foaia Text_FUNC prezintă o varietate de erori comune pe care le puteți vedea într-un set de date, inclusiv pauze de linie în locul greșit, spații suplimentare sau fără spații între cuvinte, caractere care nu se imprimă, majuscule necorespunzătoare sau toate majuscule, toate minuscule, valori de date prost formatate. Fișa DataGen_Companies conține un set de date „fictive” (plauzibile, dar nu reale) despre companii generate la https://www.generatedata.com/ pe care autorul acestui capitol le-a injectat intenționat cu erori comune văzute în date pentru a le desfășura și prelucra de dragul practicării funcțiilor Excel pentru secțiunea practică a capitolului. Foaia Mockaroo_Cars este un set de date „dummy” despre consumatori și adresele lor generate la https://mockaroo.com/, acest set de date va fi utilizat pentru secțiunea de îmbinare a corespondenței. Ambele seturi de date” fictive ” sunt arhivate aici în scopuri educaționale.

figura 10.1.1 de mai jos prezintă foaia Text_FUNC cu o varietate de erori comune observate în datele pe care le importați din alte surse. Gama concatenate & TRIM este un exemplu al modului în care o singură linie de text poate fi creată din conținutul a trei rânduri prin cuibărirea a două funcții Excel. Concatenarea pe cont propriu va îmbina cele trei celule într-una, dar singură, nu face nimic despre spațiile suplimentare pe care le vedem în text. TRIM va elimina toate spațiile, ceea ce înseamnă că trebuie să adăugăm „” pentru ca Excel să adauge celulele goale necesare între cuvinte.

figura 10.1.1 foaia Text_FUNC cu conținut original și curățat unul lângă altul.

intervalul stânga, dreapta, mijlocul din coloanele A:C ilustrează un alt set comun de funcții utilizate pentru procesarea datelor. Deseori datele vin în bucăți mari îmbinate împreună. În timp ce putem folosi caracteristica Data > Text to Columns cu delimitatori pentru a spune Excel unde dorim împărțirea datelor noastre, funcțiile stânga, dreapta, MID vor procesa date din anumite direcții, în funcție de locul în șir este textul sau numărul pe care dorim să-l extragem. B9 și B10 arată un număr de piesă pe care îl putem extrage porțiuni de utilizare a funcției MID în C9, C10. B12 și B13 arată numerele de curs putem extrage porțiuni de utilizare a funcțiilor dreapta și stânga în C12, C13.

figura 10.1.2 prezintă formulele din coloanele A:C pentru a ilustra combinația de concatenare și decupare imbricate într-o varietate de moduri de a găsi cea mai bună configurație pentru a afișa modul în care dorim ca textul nostru să apară cu sintaxa pentru stânga, dreapta și mijlocul care arată dedesubt.

figura 10.1.2 foaia Text_FUNC cu opțiunea” Afișare formule ” activată pentru coloanele A:C.

figura 10.1.3 de mai jos prezintă formulele din coloanele F:H pentru a ilustra diferența dintre căutare și căutare, precum și pentru a arăta funcțiile superioare, inferioare, corespunzătoare, valorice și TEXT utilizate pentru a produce conținutul datelor din aceste intervale.

figura 10.1.3 Text_FUNC cu opțiunea” Arată formule ” activată pentru coloanele F: H.

vizitați site-ul oficial Microsoft pentru o listă de funcții de text comune în Excel.

observați varietatea sarcinilor pe care le puteți realiza folosind formule relativ simple și alternative imbricate.

„Notă: Deși puteți utiliza funcția TEXT pentru a schimba formatarea, nu este singura modalitate. Puteți schimba formatul fără o formulă apăsând CTRL + 1 (sau imaginea pictogramei butonului de comandă MAC +1 pe Mac), apoi alegeți formatul dorit din dialogul de numere Format Cells > (sursă).”

luați în considerare posibilele utilizări ale acestor funcții pentru a vă curăța datele. Vom revizui aceste funcții și utilizarea delimitatorilor în capitolul practică.

atribuire

capitol de Emese FeLV Xvgi. CC BY-NC-SA 3.0. Seturi de date fictive de la https://www.generatedata.com/ și de la https://mockaroo.com arhivate aici în scopuri educaționale.

Atribuții Media

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg