než budeme moci pracovat s našimi daty, musíme se ujistit, že jsou platné, přesné a spolehlivé. Ve věku velkých dat mohou společnosti utratit stejně nebo více za udržování zdraví a čištění svých dat, jako utratí za jejich sběr nebo nákup. Zvažte problémy, které mohou pramenit z chybějících nebo nesprávných hodnot, duplikátů a překlepů. Platnost, přesnost a spolehlivost vašich výpočtů závisí na vaší schopnosti udržovat vaše data aktuální. Mnohé odhady ukazují, že asi 30% z vašich dat, mohou být nepřesné v průběhu času (JD Supra, 2019; Strategické DB, 2019), a dokonce i malé sady dat může být nákladné vyčistit, natož soubory, které jsou desítky, stovky nebo tisíce záznamů hluboko – nebo mnohem více, pokud jste pomocí rozsáhlých databází.

existuje mnoho řešení pro čištění dat pro širokou škálu formátů souborů, objemů dat nebo rozpočtů. Existuje však mnoho věcí, které můžeme dosáhnout pomocí funkcí a funkcí aplikace Excel, abyste mohli rychle a efektivně zpracovávat naše data. Místo nákupu aplikace, přiřazování čištění dat zaměstnanci nebo najímání služby k čištění vašich dat, pro záznamy pod milion na list, Excel vám může ušetřit spoustu času a finančních prostředků pomocí různých funkcí a funkcí. Tabulka 10.1 zobrazuje některé důležité funkce, které vám mohou pomoci vyčistit vaše data.

CLEAN odstraní všechny netisknutelné znaky z textu.
TRIM Odstraní všechny mezery z textu, s výjimkou jediné mezery mezi slovy.
zřetězit spojit dva nebo více textových řetězců do jednoho řetězce.
VLEVO Vrátí řetězec obsahující zadaný počet znaků z levé strany řetězce.
Vrátí řetězec obsahující zadaný počet znaků z pravé strany řetězce.
MID vrací určitý počet znaků z textového řetězce.
vyhledávání vyhledávání vrací číslo znaku, ve kterém je konkrétní znak nebo textový řetězec poprvé nalezen.
NAJÍT a FINDB Vyhledejte jeden textový řetězec v rámci druhého textového řetězce.
horní převádí text na velká písmena.
nižší převádí text na malá písmena.
SPRÁVNÉ Těžící první písmeno textového řetězce a všechna písmena v textu, která následují jiný znak než písmeno. Převede všechna ostatní písmena na malá písmena.
TEXT změňte způsob zobrazení čísla použitím formátování pomocí kódů formátu.
hodnota převede textový řetězec, který představuje číslo na číslo.

tabulka 10.1 ukázka funkcí čištění textu a dat v aplikaci Excel.

následující oddíly zobrazují výše uvedené funkce v akci. Soubor Ch10_Data_File obsahuje čtyři listy. Dokumentační list uvádí zdroje našich dat. Text_FUNC list má řadu společných chyb, které můžete vidět v souboru dat, včetně konců řádků na špatném místě, mezery nebo bez mezer mezi slovy, netisknutelné znaky, nesprávně aktivovány nebo všechna velká písmena, všechny malá písmena, text, špatně formátovaných dat hodnoty. Na DataGen_Companies list obsahuje sadu „dummy“ (hodnověrně, ale není reálné) údaje o společnosti, generované na https://www.generatedata.com/ že autor této kapitoly záměrně injekčně s časté chyby vidět v datech s cílem rozvinout a zpracovat kvůli praktikování funkce aplikace Excel pro Kapitolu oddíl Praxe. List Mockaroo_Cars je“ fiktivní “ datová sada o spotřebitelích a jejich adresách generovaných na https://mockaroo.com/, tato sada dat bude použita pro sekci Hromadná korespondence. Obě tyto „fiktivní“ datové sady jsou zde archivovány pro vzdělávací účely.

obrázek 10.1.1 níže ukazuje list Text_FUNC s řadou běžných chyb pozorovaných v datech, které importujete z jiných zdrojů. Rozsah Oříznutí CONCATENATE & je příkladem toho, jak lze vytvořit jeden řádek textu z obsahu tří řádků vnořením dvou funkcí aplikace Excel. CONCATENATE sám o sobě sloučí tři buňky do jedné, ale sám o sobě nedělá nic o dalších mezerách, které vidíme v textu. TRIM odstraní všechny mezery, což znamená, že musíme přidat““, aby Excel přidal potřebné prázdné buňky mezi slovy.

obrázek 10.1.1 list Text_FUNC s původním a vyčištěným obsahem vedle sebe.

levý, pravý, střední rozsah ve sloupcích A: C ilustruje další běžnou sadu funkcí používaných ke zpracování dat. Často data přicházejí ve velkých kusech sloučených dohromady. Zatímco můžeme použít Data > Text do Sloupců funkce s oddělovače říct Excel, kde chceme, aby naše údaje rozdělené, LEVÉ, PRAVÉ, STŘEDNÍ funkce bude zpracovávat data z určitých směrech v závislosti na tom, kde v řetězci je text nebo číslo, které chcete extrahovat. B9 a B10 ukazují číslo dílu můžeme extrahovat části pomocí funkce MID do C9, C10. B12 a B13 ukazují čísla kurzů můžeme extrahovat části pomocí pravé a levé funkce do C12, C13.

obrázek 10.1.2 ukazuje vzorce ve sloupcích A:C pro ilustraci kombinace ZŘETĚZIT a ČALOUNĚNÍ vnořené v různých způsobů, jak najít nejlepší konfiguraci pro výstup tak, jak chceme, aby náš text se syntaxí pro LEVÉ, PRAVÉ a STŘEDNÍ ukazující pod ním.

Obrázek 10.1.2 Na Text_FUNC list s „Zobrazovat Vzorce“ možnost povolena pro sloupce A:C

Obrázek 10.1.3 níže ukazuje vzorce ve sloupcích F:H ilustrovat rozdíl mezi NAJÍT a VYHLEDÁVÁNÍ, stejně jako show, HORNÍ, DOLNÍ, SPRÁVNÉ, HODNOTY a TEXTOVÉ funkce se používá k výrobě obsahu pro data v těchto rozsazích.

Obrázek 10.1.3 V Text_FUNC s „Zobrazovat Vzorce“ možnost povolena pro sloupce F:H.

Navštivte Oficiální stránky společnosti Microsoft pro seznam společných textové funkce v Excelu.

Sledujte různé úkoly, kterých můžete dosáhnout pomocí relativně jednoduchých vzorců a vnořených alternativ.

„poznámka: i když můžete použít textovou funkci ke změně formátování, není to jediný způsob. Můžete změnit formát bez formule stisknutím kláves CTRL+1 (nebo Obraz MAC Příkazové tlačítko ikona +1 na Mac), pak vybrat formát v Formát Buněk > Číslo dialogové okno (Zdroj).“

zvažte možné použití těchto funkcí za účelem čištění dat. Tyto funkce a použití oddělovačů znovu prozkoumáme v kapitole praxe.

ATTRIBUTION

Kapitola Emese Felvégi. CC BY-NC-SA 3.0. Fiktivní datové sady z https://www.generatedata.com/ a z https://mockaroo.com archivovány zde pro vzdělávací účely.

Média Atribucí

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg