ennen kuin voimme käyttää tietojamme, meidän on varmistettava, että ne ovat päteviä, tarkkoja ja luotettavia. Big Datan aikakaudella yritykset saattavat käyttää yhtä paljon tai enemmän terveyden ylläpitämiseen ja tietojensa puhdistamiseen kuin niiden keräämiseen tai ostamiseen ylipäätään. Mietihän, mitkä asiat voivat johtua puuttuvista tai vääristä arvoista, päällekkäisyyksistä ja kirjoitusvirheistä. Laskelmien oikeellisuus, tarkkuus ja luotettavuus riippuvat kyvystäsi pitää tietosi ajan tasalla. Monet arviot osoittavat, että noin 30% tiedoistasi voi tulla epätarkkoja ajan myötä (JD Supra, 2019; Strategic DB, 2019) ja pienetkin tietojoukot voivat olla kalliita puhdistaa, puhumattakaan tiedostoista, jotka ovat kymmeniä tai satoja tuhansia tietueita syvällä – tai paljon enemmän, jos käytät suuren mittakaavan tietokantoja.

on olemassa monia tiedon puhdistusratkaisuja monenlaisille tiedostomuodoille, tietomäärille tai budjeteille. Kuitenkin, on olemassa monia asioita voimme saavuttaa käyttämällä Excel toimintoja ja ominaisuuksia, jotta voit käsitellä tietojamme nopeasti ja tehokkaasti. Sen sijaan, että ostat sovelluksen, määrittämällä tietojen puhdistus työntekijä, tai vuokraamalla palvelun hangata tietoja, tietueiden alle miljoona per arkki, Excel voi säästää paljon aikaa ja varoja käyttämällä erilaisia toimintoja ja ominaisuuksia. Taulukko 10.1 näyttää joitakin tärkeitä toimintoja, joiden avulla voit puhdistaa tietosi.

puhdas poistaa tekstistä kaikki ei-painettavat merkit.
TRIM poistaa tekstistä kaikki välilyönnit lukuun ottamatta yksittäisiä välilyöntejä sanojen välissä.
KONSATENAATTI Yhdistä kaksi tai useampi tekstirivi yhdeksi merkkijonoksi.
LEFT palauttaa merkkijonon, joka sisältää tietyn määrän merkkejä merkkijonon vasemmalta puolelta.
RIGHT palauttaa merkkijonon, joka sisältää tietyn määrän merkkejä merkkijonon oikealta puolelta.
MID palauttaa tietyn määrän merkkejä tekstijonosta.
haku haku palauttaa sen merkin numeron, josta tietty merkki tai tekstijono ensimmäisen kerran löytyy.
Etsi ja FINDB Etsi yksi tekstimerkkijono toisen merkkijonon sisällä.
ylempi muuntaa tekstin isoiksi kirjaimiksi.
alempi muuntaa tekstin pieniksi kirjaimiksi.
oikea isolla alkukirjaimella merkitään ensimmäinen kirjain tekstijonossa ja kaikki muut kirjaimet tekstissä, jotka seuraavat mitä tahansa muuta merkkiä kuin kirjainta. Muuntaa kaikki muut kirjaimet pieniksi kirjaimiksi.
teksti muuta luvun ilmestymistapaa soveltamalla siihen formaattikoodeja.
arvo muuntaa lukua esittävän merkkijonon numeroksi.

taulukko 10.1 näyte tekstin ja tietojen puhdistus toiminnot Excel.

seuraavissa jaksoissa esitetään yllä olevat funktiot toiminnassa. Tiedostossa Ch10_data_ on neljä arkkia. Dokumentaatiolomakkeessa mainitaan tietolähteemme. Text_FUNC sheet sisältää erilaisia yleisiä virheitä, joita saatat nähdä datajoukossa, mukaan lukien rivikatot väärässä paikassa, ylimääräisiä välilyöntejä tai ei välilyöntejä sanojen välissä, ei-tulostettavat merkit, väärin isolla alkukirjaimella tai kaikki suuraakkoset, kaikki pienaakkoset, huonosti muotoillut tietoarvot. DataGen_Companies arkki sisältää joukon ”dummy” (uskottava, mutta ei todellinen) tietoja yrityksistä luotu https://www.generatedata.com/ että kirjoittaja tämän luvun tarkoituksellisesti ruiskutetaan yhteisiä virheitä nähnyt tietoja, jotta avautua ja käsitellä sitä vuoksi harjoitellaan Excel toimintoja luvun käytännön osiossa. Mockaroo_Cars-arkki on kuluttajia ja heidän osoitteitaan koskeva” dummy ” – tietokokonaisuus, joka on luotu https://mockaroo.com/, tätä tietokokonaisuutta käytetään Sulautusosiossa. Molemmat näistä ”dummy” – tietokokonaisuuksista arkistoidaan tänne opetustarkoituksiin.

alla olevassa kuvassa 10.1.1 esitetään Text_FUNC-arkki, jossa on useita yleisiä virheitä muista lähteistä tuotavissa tiedoissa. KONSATENAATTI & TRIM-alue on esimerkki siitä, miten kolmen rivin sisällöstä voidaan luoda yksi rivi tekstiä kahden Excel-funktion avulla. CONCATENATE yksinään yhdistää kolme solua yhdeksi, mutta yksin, se ei tee mitään ylimääräisiä välilyöntejä näemme tekstissä. TRIM poistaa kaikki välilyönnit, mikä tarkoittaa, että meidän on lisättävä””, jotta Excel voi lisätä tarvittavat tyhjät solut sanojen väliin.

Kuva 10.1.1 Text_FUNC-arkki, jossa on alkuperäinen ja puhdistettu sisältö vierekkäin.

sarakkeiden A:C Vasen, Oikea ja keskialue kuvaavat toista yleistä funktioiden joukkoa, jota käytetään tietojen käsittelyyn. Usein tiedot tulevat suuria palasia sulautunut yhteen. Vaikka voimme käyttää tietoja > Teksti sarakkeisiin ominaisuus erottimet kertoa Excelille, missä haluamme tietomme jakaa, vasen, oikea, puolivälissä toiminnot käsittelevät tietoja tietyistä suunnista riippuen siitä, missä merkkijono on teksti tai numero haluamme poimia. B9 ja B10 osoittavat osan numero Voimme poimia osia käyttäen MID-toiminto C9, C10. B12 ja B13 osoittavat kurssinumerot Voimme poimia osia käyttämällä oikean ja vasemman toimintoja C12, C13.

Kuva 10.1.2 näyttää kaavoja sarakkeissa A:C havainnollistaa yhdistelmä CONCATENATE ja TRIM sisäkkäisiä eri tavoin löytää paras kokoonpano tulostaa tavalla haluamme tekstimme näkyvät syntaksi vasemmalle, oikealle ja puolivälissä näkyvät alla.

Kuva 10.1.2 Text_FUNC-arkki, jossa sarakkeiden A:C ”Näytä kaavat” – asetus on käytössä.

Kuva 10.1.3 alla on sarakkeissa F:H olevat kaavat, joilla havainnollistetaan Etsi-ja HAKUEROJA, sekä ylä -, ala -, oikea -, arvo-ja Tekstifunktiot, joita käytetään tietojen sisällön tuottamiseen kyseisillä alueilla.

Kuva 10.1.3 Text_FUNC, jossa ”Näytä kaavat” – asetus on käytössä sarakkeissa F:H.

Käy virallisella Microsoftin sivustolla luettelo yhteisistä tekstitoiminnoista Excelissä.

tarkkaile, kuinka erilaisia tehtäviä voit saavuttaa käyttämällä suhteellisen yksinkertaisia kaavoja ja sisäkkäisiä vaihtoehtoja.

”huomautus: Vaikka voit käyttää TEKSTITOIMINTOA muotoilujen muuttamiseen, se ei ole ainoa tapa. Voit muuttaa muotoa ilman kaavaa painamalla CTRL + 1 (tai Kuva Macin Komentopainikkeesta +1 Macissa) ja valitsemalla sitten haluamasi formaatin Format Cells > Number dialogista (lähde).”

harkitse näiden toimintojen mahdollisia käyttötarkoituksia tietojesi puhdistamiseksi. Käymme nämä toiminnot ja Rajaajien käytön uudelleen Lukukäytännössä.

nimeä

luku Emese Felvégi. CC BY-NC-SA 3.0. Dummy data setts from https://www.generatedata.com/ and from https://mockaroo.com archived here for educational purposes.

Media Attributions

  • Figure_10 – 1
  • Figure_10 – 2
  • Figure_10-3

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg