innan vi kan arbeta med våra data måste vi se till att det är giltigt, korrekt och tillförlitligt. I en ålder av Big Data, företag kan spendera lika mycket eller mer på att upprätthålla hälsa och rengöring deras data som de spenderar på att samla in eller köpa den i första hand. Tänk på de problem som kan bero på saknade eller felaktiga värden, dubbletter och skrivfel. Giltigheten, noggrannheten och tillförlitligheten i dina beräkningar beror på din förmåga att hålla dina data uppdaterade. Många uppskattningar visar att cirka 30% av dina data kan bli felaktiga över tiden (JD Supra, 2019; Strategic DB, 2019) och även små datamängder kan vara kostsamma att rengöra, än mindre filer som är tiotals eller hundratusentals poster djupa – eller mycket mer om du använder storskaliga databaser.

det finns många datarengöringslösningar där ute för ett brett utbud av filformat, datavolymer eller budgetar. Det finns dock många saker vi kan åstadkomma med Excel-funktioner och funktioner så att du kan bearbeta våra data snabbt och effektivt. Istället för att köpa ett program, tilldela data rengöring till en anställd, eller hyra en tjänst för att skrubba dina data, för poster under en miljon per ark, Excel kan spara mycket tid och pengar med hjälp av en mängd olika funktioner och funktioner. Tabell 10.1 visar några viktiga funktioner som kan hjälpa dig att rensa upp dina data.

CLEAN tar bort alla icke utskrivbara tecken från text.
TRIM tar bort alla mellanslag från text förutom enstaka mellanslag mellan ord.
sammanfoga sammanfoga två eller flera textsträngar i en sträng.
LEFT returnerar en sträng som innehåller ett angivet antal tecken från vänster sida av en sträng.
RIGHT returnerar en sträng som innehåller ett angivet antal tecken från höger sida av en sträng.
MID returnerar ett visst antal tecken från en textsträng.
SÖK SÖK returnerar numret på det tecken som ett visst tecken eller en textsträng först hittas på.
hitta och FINDB leta upp en textsträng i en andra textsträng.
UPPER konverterar text till versaler.
lägre konverterar text till gemener.
korrekt aktiverar den första bokstaven i en textsträng och andra bokstäver i text som följer alla andra tecken än en bokstav. Konverterar alla andra bokstäver till små bokstäver.
TEXT ändra hur ett tal visas genom att tillämpa formatering på det med formatkoder.
värde konverterar en textsträng som representerar ett tal till ett tal.

tabell 10.1 ett exempel på text-och datarengöringsfunktioner i Excel.

följande avsnitt visar funktionerna ovan i aktion. Ch10_data_filen innehåller fyra ark. Dokumentationsbladet noterar källorna till våra data. Text_func-arket har en mängd vanliga fel som du kan se i en datamängd, inklusive radbrytningar på fel plats, extra mellanslag eller inga mellanslag mellan ord, tecken som inte skrivs ut, felaktigt aktiverade eller alla stora bokstäver, All liten text, dåligt formaterade datavärden. Datagen_companies-arket innehåller en uppsättning” dummy ” (trovärdig men inte riktig) data om företag som genereras vid https://www.generatedata.com/ som författaren till detta kapitel avsiktligt injicerade med vanliga fel som ses i data för att utveckla och bearbeta det för att öva Excel-funktioner för avsnittet Kapitelövning. Mockaroo_cars-arket är en” dummy ” – dataset om konsumenter och deras adresser genererade på https://mockaroo.com/, denna dataset kommer att användas för avsnittet Om dokumentkoppling. Båda dessa” dummy ” datamängder arkiveras här för utbildningsändamål.

figur 10.1.1 nedan visar text_func-arket med en mängd vanliga fel som ses i data som du importerar från andra källor. TRIMOMRÅDET CONCATENATE & är ett exempel på hur en enda textrad kan skapas från innehållet i tre rader genom att häcka två Excel-funktioner. Sammanfoga på egen hand kommer att slå samman de tre cellerna i en, men ensam gör det ingenting om de extra mellanslag vi ser i texten. TRIM tar bort alla mellanslag, vilket innebär att vi måste lägga till ”” för att Excel ska kunna lägga till de nödvändiga tomma cellerna mellan orden.

figur 10.1.1 text_func-arket med original och rengjort innehåll sida vid sida.

vänster, höger, MELLANOMRÅDE i kolumnerna A:C illustrerar en annan vanlig uppsättning funktioner som används för att bearbeta data. Ofta kommer data i stora bitar sammanslagna. Medan vi kan använda Data > Text to Columns-funktionen med avgränsare för att berätta för Excel var vi vill dela våra data, kommer Vänster, Höger, MITTFUNKTIONER att bearbeta data från vissa riktningar beroende på var i strängen är texten eller numret vi vill extrahera. B9 och B10 visar ett artikelnummer vi kan extrahera delar av att använda MITTFUNKTIONEN i C9, C10. B12 och B13 visar kursnummer vi kan extrahera delar av att använda höger och vänster funktioner i C12, C13.

figur 10.1.2 visar formlerna i kolumnerna A:C för att illustrera kombinationen av sammanfoga och trimma kapslade på olika sätt för att hitta den bästa konfigurationen för att mata ut hur vi vill att vår text ska visas med syntaxen för vänster, höger och mitten som visas under.

figur 10.1.2 text_func-arket med alternativet ”Visa formler” aktiverat för kolumnerna A:C.

figur 10.1.3 nedan visar formlerna i kolumnerna F:H för att illustrera skillnaden mellan sökning och sökning, samt visa de övre, nedre, korrekta, värde-och TEXTFUNKTIONERNA som används för att producera innehållet för data i dessa områden.

figur 10.1.3 Text_FUNC med alternativet” Visa formler ” aktiverat för kolumnerna F: H.

besök den officiella Microsoft-webbplatsen för en lista över vanliga textfunktioner i Excel.

observera de olika uppgifter du kan uppnå genom att använda relativt enkla formler och kapslade alternativ.

”även om du kan använda textfunktionen för att ändra formatering är det inte det enda sättet. Du kan ändra formatet utan en formel genom att trycka på CTRL + 1 (eller bild på Mac-Kommandoknappsikonen +1 på Mac) och välj sedan det format du vill ha från dialogrutan Formatera celler > nummer (källa).”

Tänk på möjliga användningar av dessa funktioner för att rengöra dina data. Vi kommer att se över dessa funktioner och användningen av avgränsare i Kapitelpraxis.

ATTRIBUTION

kapitel av Emese FeLV Bisexgi. CC BY-NC-SA 3.0. Dummy dataset från https://www.generatedata.com/ och från https://mockaroo.com arkiveras här för utbildningsändamål.

Media Attribut

  • Figure_10 – 1
  • Figure_10 – 2
  • Figure_10-3

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg