voordat we met onze gegevens kunnen werken, moeten we ervoor zorgen dat deze geldig, accuraat en betrouwbaar is. In het tijdperk van Big Data, bedrijven kunnen net zo veel of meer besteden aan het behoud van de gezondheid en het schoonmaken van hun gegevens als ze besteden aan het verzamelen of kopen van het in de eerste plaats. Denk aan de problemen die kunnen voortvloeien uit ontbrekende of verkeerde waarden, duplicaten en typefouten. De geldigheid, nauwkeurigheid en betrouwbaarheid van uw berekeningen zijn afhankelijk van uw vermogen om uw gegevens up-to-date te houden. Veel schattingen tonen aan dat ongeveer 30% van uw gegevens in de loop van de tijd onnauwkeurig kan worden (JD Supra, 2019; Strategic DB, 2019) en zelfs kleine datasets kunnen kostbaar zijn om op te schonen, laat staan bestanden die tientallen of honderdduizenden records diep zijn – of veel meer als u grootschalige databases gebruikt.

er zijn veel oplossingen voor het opschonen van gegevens voor een breed scala aan bestandsindelingen, gegevensvolumes of budgetten. Er zijn echter veel dingen die we kunnen bereiken met behulp van Excel-functies en-functies, zodat u onze gegevens snel en effectief kunt verwerken. In plaats van de aankoop van een applicatie, het toewijzen van gegevens schoonmaken aan een werknemer, of het inhuren van een dienst om uw gegevens te schrobben, voor records onder een miljoen per blad, Excel kan u een groot deel van de tijd en geld besparen met behulp van een verscheidenheid aan functies en functies. Tabel 10.1 toont u een aantal belangrijke functies die u kunnen helpen bij het opruimen van uw gegevens.

CLEAN verwijdert alle niet-afdrukbare tekens uit de tekst.
TRIM verwijdert alle spaties uit de tekst, behalve enkele spaties tussen woorden.
samenvoegen voeg twee of meer tekstreeksen samen tot één tekenreeks.
LEFT geeft een Tekenreeks terug die een bepaald aantal tekens bevat aan de linkerkant van een tekenreeks.
RIGHT geeft een Tekenreeks terug die een bepaald aantal tekens bevat aan de rechterkant van een tekenreeks.
MID geeft een specifiek aantal tekens uit een Tekenreeks terug.
SEARCH SEARCH geeft het nummer terug van het teken waarop een specifiek teken of tekstreeks voor het eerst wordt gevonden.
zoek en FINDB zoek een tekenreeks binnen een tweede tekenreeks.
UPPER converteert tekst naar hoofdletters.
LOWER converteert tekst naar kleine letters.
PROPER geeft een hoofdletter aan de eerste letter in een tekenreeks en alle andere letters in de tekst die een ander teken dan een letter volgen. Zet alle andere letters om in kleine letters.
TEXT Wijzig de manier waarop een getal wordt weergegeven door opmaak toe te passen met opmaakcodes.
waarde Converteert een tekenreeks die een getal vertegenwoordigt naar een getal.

tabel 10.1 een voorbeeld van functies voor tekst-en gegevensopruiming in Excel.

de volgende secties tonen de bovenstaande functies in actie. Het Ch10_data_bestand bevat vier bladen. Het documentatieblad vermeldt de bronnen van onze gegevens. Text_FUNC sheet bevat een verscheidenheid aan veel voorkomende fouten die u kunt zien in een dataset, inclusief regeleinden op de verkeerde plaats, extra spaties of geen spaties tussen woorden, niet-afdrukbare tekens, onjuist hoofdletters of alle hoofdletters, alle kleine letters, slecht geformatteerde gegevenswaarden. Het datagen_companies-blad bevat een reeks “dummy” – (plausibele, maar niet echte) gegevens over bedrijven die zijn gegenereerd bij https://www.generatedata.com/ en die de auteur van dit hoofdstuk opzettelijk heeft geïnjecteerd met veelvoorkomende fouten die in de gegevens zijn waargenomen om deze te ontvouwen en te verwerken met het oog op het oefenen van Excel-functies voor de sectie Chapter Practice. De mockaroo_cars sheet is een “dummy” dataset over consumenten en hun adressen gegenereerd op https://mockaroo.com/, deze dataset zal worden gebruikt voor de Mail Merge sectie. Beide “dummy” datasets worden hier gearchiveerd voor educatieve doeleinden.

figuur 10.1.1 hieronder toont het Text_FUNC-blad met een verscheidenheid aan veelvoorkomende fouten in gegevens die u uit andere bronnen importeert. Het snijbereik CONCATENATE & is een voorbeeld van hoe een enkele regel tekst kan worden gemaakt op basis van de inhoud van drie rijen door twee Excel-functies te nesten. CONCATENATE op zichzelf zal de drie cellen samenvoegen tot één, maar alleen, het doet niets aan de extra spaties die we zien in de tekst. TRIM verwijdert alle spaties, wat betekent dat we “” moeten toevoegen zodat Excel de benodigde lege cellen tussen woorden kan toevoegen.

figuur 10.1.1 het Text_FUNC blad met originele en gereinigde inhoud naast elkaar.

links, rechts, middenbereik in kolommen A: C illustreren een andere gemeenschappelijke reeks functies die worden gebruikt om gegevens te verwerken. Vaak komen gegevens in grote stukken samengevoegd. Hoewel we de functie Data > tekst naar kolommen kunnen gebruiken met scheidingstekens om Excel te vertellen waar we onze gegevens willen splitsen, verwerken de functies links, rechts, midden gegevens vanuit bepaalde richtingen, afhankelijk van waar in de tekenreeks de tekst of het nummer staat dat we willen extraheren. B9 en B10 tonen een onderdeelnummer dat we delen van het gebruik van de MID-functie kunnen extraheren in C9, C10. B12 en B13 tonen cursusnummers we kunnen delen van het gebruik van de rechter-en LINKERFUNCTIES extraheren in C12, C13.

figuur 10.1.2 toont de formules in de kolommen A:C om de combinatie van CONCATENATE en TRIM genest op verschillende manieren te illustreren om de beste configuratie te vinden om de manier uit te voeren waarop we willen dat onze tekst verschijnt met de syntaxis voor links, rechts en Midden weergegeven eronder.

figuur 10.1.2 het Text_FUNC-blad met de optie” formules weergeven ” ingeschakeld voor kolommen A:C.

figuur 10.1.3 hieronder toont de formules in de kolommen F:H om het verschil tussen zoeken en zoeken te illustreren, evenals de bovenste, onderste, juiste, waarde en tekstfuncties die worden gebruikt om de inhoud voor gegevens in die bereiken te produceren.

figuur 10.1.3 de Text_FUNC met de optie “formules weergeven” ingeschakeld voor kolommen F: H.

bezoek de officiële Microsoft-site voor een lijst met veelvoorkomende tekstfuncties in Excel.

observeer de verscheidenheid aan taken die u kunt bereiken door relatief eenvoudige formules en geneste alternatieven te gebruiken.

“Notes: hoewel u de tekstfunctie kunt gebruiken om de opmaak te wijzigen, is dit niet de enige manier. U kunt het formaat zonder formule wijzigen door op CTRL+1 te drukken (of afbeelding van het pictogram van de Mac-opdrachtknop +1 op de Mac) en vervolgens het gewenste formaat te kiezen in het dialoogvenster Cellen opmaken > nummer (bron).”

overweeg eventueel gebruik van deze functies om uw gegevens op te schonen. We zullen deze functies en het gebruik van scheidingstekens in het hoofdstuk praktijk opnieuw bekijken.

toeschrijving

hoofdstuk door Emese Felvégi. CC BY-NC-SA 3.0. Dummy data sets van https://www.generatedata.com/ en van https://mockaroo.com worden hier gearchiveerd voor educatieve doeleinden.

Attributies Voor Media

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg