zanim będziemy mogli pracować z naszymi danymi, musimy upewnić się, że są one prawidłowe, dokładne i wiarygodne. W dobie dużych zbiorów danych firmy mogą wydawać tyle samo lub więcej na utrzymanie zdrowia i czyszczenie danych, co na ich zbieranie lub zakup. Rozważ problemy, które mogą wynikać z brakujących lub niewłaściwych wartości, duplikatów i literówek. Ważność, dokładność i wiarygodność obliczeń zależy od twojej zdolności do aktualizowania danych. Wiele szacunków pokazuje, że około 30% danych może stać się niedokładne w czasie (JD Supra, 2019; Strategic DB, 2019), a nawet małe zbiory danych mogą być kosztowne do czyszczenia, nie mówiąc już o plikach, które są dziesiątkami lub setkami tysięcy głębokich rekordów – lub znacznie więcej, jeśli używasz dużych baz danych.

istnieje wiele rozwiązań do czyszczenia danych dla szerokiej gamy formatów plików, woluminów danych lub budżetów. Istnieje jednak wiele rzeczy, które możemy osiągnąć za pomocą funkcji i funkcji programu Excel, dzięki czemu możesz szybko i skutecznie przetwarzać nasze dane. Zamiast kupować aplikację, przypisywać czyszczenie danych pracownikowi lub wynająć usługę do szorowania danych, w przypadku rekordów poniżej miliona na arkusz, Excel może zaoszczędzić wiele czasu i funduszy, korzystając z różnych funkcji i funkcji. Tabela 10.1 pokazuje kilka ważnych funkcji, które mogą pomóc w czyszczeniu danych.

CLEAN usuwa z tekstu wszystkie znaki, których nie można wydrukować.
TRIM usuwa wszystkie spacje z tekstu, z wyjątkiem pojedynczych spacji między słowami.
połącz połącz dwa lub więcej ciągów tekstowych w jeden ciąg.
LEFT zwraca łańcuch zawierający określoną liczbę znaków z lewej strony łańcucha.
RIGHT zwraca łańcuch zawierający określoną liczbę znaków z prawej strony łańcucha.
MID Zwraca określoną liczbę znaków z ciągu tekstowego.
SEARCH SEARCH Zwraca numer znaku, pod którym po raz pierwszy został znaleziony określony znak lub ciąg tekstowy.
FIND i FINDB Zlokalizuj jeden ciąg tekstowy w drugim łańcuchu tekstowym.
UPPER konwertuje tekst na wielkie litery.
LOWER konwertuje tekst na małe litery.
PROPER robi wielką literę w ciągu tekstowym i wszelkie inne litery w tekście, które następują po dowolnym znaku innym niż litera. Konwertuje wszystkie inne litery na małe litery.
tekst zmienia sposób wyświetlania liczby, stosując do niej formatowanie za pomocą kodów formatowania.
wartość konwertuje ciąg tekstowy, który reprezentuje liczbę na liczbę.

tabela 10.1 przykładowe funkcje czyszczenia tekstu i danych w programie Excel.

poniższe sekcje pokazują powyższe funkcje w działaniu. Plik Ch10_Data_File zawiera cztery arkusze. W arkuszu dokumentacji opisano źródła naszych danych. Arkusz Text_FUNC zawiera wiele typowych błędów, które można zobaczyć w zbiorze danych, w tym podziały wierszy w niewłaściwym miejscu, dodatkowe spacje lub brak spacji między słowami, niedrukowane znaki, nieprawidłowo pisane wielkimi literami lub wszystkie wielkie litery, wszystkie małe litery, źle sformatowane wartości danych. Arkusz DataGen_Companies zawiera zestaw „obojętnych” (wiarygodnych, ale nie rzeczywistych) danych o firmach wygenerowanych w https://www.generatedata.com/, które autor tego rozdziału celowo wstrzyknął z typowymi błędami widocznymi w danych w celu rozwinięcia i przetworzenia ich w celu praktykowania funkcji Excela w sekcji praktyka rozdziału. Arkusz Mockaroo_Cars jest „atrapą”zbioru danych o konsumentach i ich adresach wygenerowanych w https://mockaroo.com/, ten zestaw danych będzie używany do sekcji Merge poczty. Oba te „fałszywe” zbiory danych są archiwizowane tutaj w celach edukacyjnych.

rysunek 10.1.1 poniżej pokazuje arkusz Text_FUNC z wieloma typowymi błędami widocznymi w danych importowanych z innych źródeł. Zakres trim CONCATENATE & jest przykładem tego, jak można utworzyć pojedynczy wiersz tekstu z zawartości trzech wierszy przez zagnieżdżenie dwóch funkcji programu Excel. Sama CONCATENATE połączy trzy komórki w jedną, ale sama nie robi nic z dodatkowymi spacjami, które widzimy w tekście. TRIM usunie wszystkie spacje, co oznacza, że musimy dodać””, aby Excel mógł dodać potrzebne puste komórki między słowami.

rysunek 10.1.1 arkusz Text_FUNC z oryginalną i oczyszczoną zawartością obok siebie.

LEWY, PRAWY, średni zakres w kolumnach A:C ilustruje inny wspólny zestaw funkcji używanych do przetwarzania danych. Często dane są dostarczane w dużych kawałkach połączonych ze sobą. Podczas gdy możemy użyć funkcji Tekst do kolumn Data > z ogranicznikami, aby powiedzieć Excelowi, gdzie chcemy podzielić dane, funkcje lewy, prawy, środkowy będą przetwarzać dane z pewnych kierunków w zależności od tego, gdzie w ciągu znajduje się tekst lub liczba, którą chcemy wyodrębnić. B9 i B10 pokazują numer części możemy wyodrębnić części za pomocą funkcji MID do C9, C10. B12 i B13 pokazują numery kursów możemy wyodrębnić fragmenty użycia funkcji prawej i lewej do C12, C13.

rysunek 10.1.2 pokazuje formuły w kolumnach A:C aby zilustrować kombinację CONCATENATE i TRIM zagnieżdżonych na wiele sposobów, aby znaleźć najlepszą konfigurację, aby wyświetlić sposób, w jaki chcemy, aby nasz tekst był wyświetlany ze składnią dla lewej, prawej i połowy pokazaną pod spodem.

rysunek 10.1.2 arkusz Text_FUNC z włączoną opcją „Pokaż formuły” dla kolumn A:C.

rysunek 10.1.3 poniżej pokazuje formuły w kolumnach F:H, aby zilustrować różnice między znajdź i szukaj, a także pokazać górne, dolne, właściwe, wartości i funkcje tekstowe używane do tworzenia zawartości dla danych w tych zakresach.

rysunek 10.1.3 Text_FUNC z włączoną opcją „Pokaż formuły” dla kolumn F:H.

odwiedź oficjalną witrynę firmy Microsoft, aby uzyskać listę popularnych funkcji tekstowych w programie Excel.

Obserwuj różnorodność zadań, które możesz osiągnąć za pomocą stosunkowo prostych formuł i zagnieżdżonych alternatyw.

„Uwaga: chociaż możesz użyć funkcji tekstowej do zmiany formatowania, nie jest to jedyny sposób. Możesz zmienić format bez formuły, naciskając CTRL+1 (lub obraz ikony przycisku polecenia MAC +1 na komputerze Mac), a następnie wybierz żądany format z Formatuj komórki > numer dialog (źródło).”

rozważ możliwe zastosowania tych funkcji w celu czyszczenia danych. Omówimy te funkcje i stosowanie ograniczników w praktyce rozdziału.

atrybucja

Rozdział autorstwa Emese Felvégi. CC BY-NC-SA 3.0. Fałszywe zbiory danych z https://www.generatedata.com/ i https://mockaroo.com zarchiwizowane tutaj w celach edukacyjnych.

  • Rysunek_10-1
  • Rysunek_10-2
  • Rysunek_10-3

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg