før vi kan arbejde med vores data, skal vi sikre os, at de er gyldige, nøjagtige og pålidelige. I en alder af Big Data kan virksomheder bruge lige så meget eller mere på at opretholde sundheden og rense deres data, som de bruger på at indsamle eller købe dem i første omgang. Overvej de problemer, der kan stamme fra manglende eller forkerte værdier, dubletter og skrivefejl. Gyldigheden, nøjagtigheden og pålideligheden af dine beregninger afhænger af din evne til at holde dine data opdaterede. Mange estimater viser, at omkring 30% af dine data kan blive unøjagtige over tid (JD Supra, 2019; strategisk DB, 2019) og endda små datasæt kan være dyre at rengøre, endsige filer, der er titusinder eller hundreder af tusinder af poster dybt – eller meget mere, hvis du bruger store databaser.

der er mange data rengøring løsninger derude for en bred vifte af filformater, datamængder eller budgetter. Der er dog mange ting, vi kan udrette ved hjælp af vores funktioner og funktioner, så du kan behandle vores data hurtigt og effektivt. I stedet for at købe en applikation, tildele datarensning til en medarbejder eller ansætte en service til at skrubbe dine data til poster under en million pr. Tabel 10.1 viser dig nogle vigtige funktioner, der kan hjælpe dig med at rydde op i dine data.

CLEAN fjerner alle tegn, der ikke kan udskrives, fra tekst.
TRIM fjerner alle mellemrum fra tekst undtagen enkelte mellemrum mellem ord.
sammenkæd Forbind to eller flere tekststrenge i en streng.
venstre returnerer en streng, der indeholder et angivet antal tegn fra venstre side af en streng.
højre returnerer en streng, der indeholder et angivet antal tegn fra højre side af en streng.
MID Returnerer et bestemt antal tegn fra en tekststreng.
søg søg returnerer nummeret på det tegn, hvor et bestemt tegn eller en tekststreng først findes.
FIND og FINDB Find en tekststreng i en anden tekststreng.
øvre konverterer tekst til store bogstaver.
lavere konverterer tekst til små bogstaver.
korrekt aktiverer det første bogstav i en tekststreng og andre bogstaver i tekst, der følger et andet tegn end et bogstav. Konverterer alle andre bogstaver til små bogstaver.
tekst skift den måde, et tal vises på, ved at anvende formatering på det med formatkoder.
værdi konverterer en tekststreng, der repræsenterer et tal til et tal.

tabel 10.1 et eksempel på tekst-og datarensningsfunktioner.

de følgende afsnit viser funktionerne ovenfor i aktion. Ch10_Data_File indeholder fire ark. Dokumentationsarket noterer kilderne til vores data. Tekst_func ark indeholder en række almindelige fejl, du kan se i et datasæt, herunder linjeskift på det forkerte sted, ekstra mellemrum eller ingen mellemrum mellem ord, ikke-udskrivningstegn, forkert store bogstaver eller alle store bogstaver, alle små bogstaver, dårligt formaterede dataværdier. Datagen_companies-arket indeholder et sæt” dummy ” (plausible, men ikke reelle) data om virksomheder genereret på https://www.generatedata.com/, som forfatteren af dette kapitel forsætligt injicerede med almindelige fejl set i data for at udfolde og behandle det af hensyn til at praktisere udmærke funktioner til Kapitelpraksis sektionen. Mockaroo_Cars-arket er et” dummy ” datasæt om forbrugere og deres adresser genereret på https://mockaroo.com/, dette datasæt vil blive brugt til afsnittet Brevfletning. Begge disse” dummy ” datasæt arkiveres her til uddannelsesmæssige formål.

figur 10.1.1 nedenfor viser Tekst_func-arket med en række almindelige fejl, der ses i data, du importerer fra andre kilder. SAMMENKÆDNINGSOMRÅDET & er et eksempel på, hvordan en enkelt tekstlinje kan oprettes ud fra indholdet i tre rækker ved at indlejre to funktioner. Sammenkædning alene vil fusionere de tre celler i en, men alene gør det intet ved de ekstra mellemrum, vi ser i teksten. TRIM fjerner alle mellemrum, hvilket betyder, at vi er nødt til at tilføje “” for at tilføje de nødvendige tomme celler mellem ord.

figur 10.1.1 Tekst_func-arket med originalt og renset indhold side om side.

venstre, højre, mellemområde i kolonne A:C illustrerer et andet almindeligt sæt funktioner, der bruges til at behandle data. Ofte kommer data i store bidder fusioneret sammen. Mens vi kan bruge funktionen Data > tekst til kolonner med afgrænsere til at fortælle, hvor vi vil have vores data opdelt, vil Venstre, højre, MID-funktionerne behandle data fra bestemte retninger afhængigt af hvor i strengen er den tekst eller det nummer, vi ønsker at udtrække. B9 og B10 viser et varenummer, vi kan udtrække dele af at bruge MID-funktionen til C9, C10. B12 og B13 viser kursusnumre, vi kan udtrække dele af at bruge højre og venstre funktioner i C12, C13.

figur 10.1.2 viser formlerne i kolonner A:C for at illustrere kombinationen af sammenkædning og TRIM indlejret på forskellige måder for at finde den bedste konfiguration til output, som vi ønsker, at vores tekst skal vises med syntaksen for Venstre, højre, og midt viser nedenunder.

figur 10.1.2 Tekst_func-arket med indstillingen “Vis formler” aktiveret for kolonner A:C.

figur 10.1.3 nedenfor viser formlerne i kolonner F:H for at illustrere forskellen mellem FIND og søg samt vise de øverste, nedre, korrekte, værdi-og tekstfunktioner, der bruges til at fremstille indholdet til data i disse områder.

figur 10.1.3 Tekst_func med indstillingen” Vis formler ” aktiveret for kolonner F:H.

besøg det officielle Microsoft-site for at få en liste over almindelige tekstfunktioner.

overhold de forskellige opgaver, du kan opnå ved at bruge relativt enkle formler og indlejrede alternativer.

“Bemærk: Selvom du kan bruge tekstfunktionen til at ændre formatering, er det ikke den eneste måde. Du kan ændre formatet uden en formel ved at trykke på CTRL+1 (eller billede af Mac-Kommandoknappeikonet +1 på Mac) og derefter vælge det ønskede format fra dialogboksen Formater Celler > tal (kilde).”

overvej mulige anvendelser af disse funktioner for at rense dine data. Vi vil revidere disse funktioner og brugen af afgrænsere i kapitlet praksis.

ATTRIBUTION

kapitel af Emese FeLV Kurtgi. CC BY-NC-SA 3.0. Dummy datasæt fra https://www.generatedata.com/ og fra https://mockaroo.com arkiveret her til uddannelsesmæssige formål.

Medieattributioner

  • Figure_10-1
  • Figure_10 – 2
  • Figure_10-3

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg