mielőtt dolgozhatnánk az adatainkkal, meg kell győződnünk arról, hogy azok érvényesek, pontosak és megbízhatóak. A Big Data korában a vállalatok ugyanannyit vagy többet költhetnek az egészség megőrzésére és az adatok tisztítására, mint amennyit elsősorban gyűjtésére vagy megvásárlására költenek. Fontolja meg azokat a problémákat, amelyek hiányzó vagy hibás értékekből, másolatokból és elírásokból eredhetnek. A számítások érvényessége, pontossága és megbízhatósága attól függ, hogy képes-e naprakészen tartani adatait. Számos becslés azt mutatja, hogy az adatok körülbelül 30% – A idővel pontatlanná válhat (JD Supra, 2019; Strategic DB, 2019), és még a kis adatkészletek tisztítása is költséges lehet, nem beszélve a több tíz vagy százezer rekord mélységű fájlokról-vagy sokkal többről, ha nagyméretű adatbázisokat használ.

számos adattisztítási megoldás létezik a fájlformátumok, adatmennyiségek vagy költségvetések széles skálájához. Az Excel-funkciók és-funkciók használatával azonban sok mindent meg tudunk valósítani, így gyorsan és hatékonyan dolgozhatja fel adatainkat. Ahelyett, hogy egy alkalmazást vásárolna, adattisztítást rendelne egy alkalmazotthoz, vagy bérelne egy szolgáltatást az adatok súrolására, a laponként egymillió alatti rekordokhoz, az Excel sok időt és pénzt takaríthat meg a különböző funkciók és funkciók használatával. A 10.1. táblázat néhány fontos funkciót mutat be, amelyek segíthetnek az adatok tisztításában.

CLEAN eltávolítja az összes nem nyomtatható karaktert a szövegből.
TRIM eltávolítja az összes szóközt a szövegből, kivéve a szavak közötti egyetlen szóközt.
összefűzés két vagy több szöveges karakterlánc összekapcsolása egy karakterláncba.
LEFT egy megadott számú karaktert tartalmazó karakterláncot ad vissza a Karakterlánc bal oldaláról.
RIGHT egy karakterláncot ad vissza, amely meghatározott számú karaktert tartalmaz a karakterlánc jobb oldaláról.
MID adott számú karaktert ad vissza egy szöveges karakterláncból.
keresés a keresés annak a karakternek a számát adja vissza, amelynél egy adott karakter vagy szöveges karakterlánc először megtalálható.
FIND and FINDB Keressen egy szöveges karakterláncot egy második szöveges karakterláncon belül.
felső a szöveget nagybetűvé alakítja.
alsó a szöveget kisbetűvé alakítja.
megfelelő nagybetűvel írja be a szöveges karakterlánc első betűjét, valamint a szöveg bármely más betűjét, amely a betűtől eltérő karaktert követ. Az összes többi betűt kisbetűvé alakítja.
szöveg módosítsa a szám megjelenítési módját úgy, hogy formázási kódokkal formázza azt.
érték egy számot képviselő szöveges karakterláncot alakít át számra.

10.1 táblázat szöveg – és adattisztítási funkciók mintája az Excel programban.

a következő szakaszok a fenti funkciókat mutatják be működés közben. A Ch10_Data_File négy lapot tartalmaz. A dokumentációs lap feljegyzi adataink forrásait. Text_FUNC sheet funkciók a különböző gyakori hibák előfordulhat, hogy egy adathalmaz, beleértve a sortörések rossz helyen, extra szóközök vagy nincs szóköz a szavak között, nem nyomtatási karakterek, helytelenül nagybetűs vagy minden nagybetűs, minden kisbetűs szöveg, rosszul formázott adatértékeket. A DataGen_Companies lap “dummy” (hihető, de nem valós) adatokat tartalmaz a https://www.generatedata.com/ címen generált vállalatokról, amelyeket e fejezet szerzője szándékosan injektált az adatokban látott gyakori hibákkal annak érdekében, hogy kibontakoztassa és feldolgozza azokat a fejezet gyakorlati szakaszának Excel funkcióinak gyakorlása érdekében. A Mockaroo_Cars lap egy” dummy ” adathalmaz a fogyasztókról és címeikről, amelyek https://mockaroo.com/ címen generálódnak, ezt az adatkészletet a Körlevél szakasz fogja használni. Mindkét “dummy” adatkészletet itt archiválják oktatási célokra.

ábra 10.1.1 az alábbi ábra a Text_FUNC lapot a különböző gyakori hibák látható adatokat importálni más forrásokból. A CONCATENATE & TRIM tartomány egy példa arra, hogyan lehet egyetlen sor szöveget létrehozni három sor tartalmából két Excel függvény beágyazásával. A CONCATENATE önmagában egyesíti a három cellát egybe, de önmagában nem tesz semmit a szövegben látható extra szóközökkel kapcsolatban. A TRIM eltávolítja az összes szóközt, ami azt jelenti, hogy hozzá kell adnunk “” ahhoz, hogy az Excel hozzáadhassa a szükséges üres cellákat a szavak közé.

10.1.1. ábra a Text_FUNC lap eredeti és tisztított tartalommal egymás mellett.

az A:C oszlopok bal, jobb, KÖZÉPTARTOMÁNYA az adatok feldolgozásához használt funkciók egy másik gyakori készletét szemlélteti. Az adatok gyakran nagy darabokban érkeznek össze. Míg a Data > Text to Columns funkciót elválasztókkal használhatjuk, hogy megmondjuk az Excel-nek, hogy hol akarjuk megosztani az adatainkat, a bal, jobb, MID függvények bizonyos irányokból feldolgozzák az adatokat, attól függően, hogy a karakterláncban hol van a kibontani kívánt szöveg vagy szám. A B9 és a B10 olyan cikkszámot mutat, amelyet a MID funkció használatával kivonhatunk a C9, C10-be. A B12 és a B13 kurzusszámokat mutat be, a jobb és a bal függvények egyes részeit kivonhatjuk a C12, C13-Ba.

a 10.1.2. ábra a képleteket mutatja az a oszlopokban:C az összefűzés és a vágás kombinációjának szemléltetése különféle módokon, hogy megtaláljuk a legjobb konfigurációt a szöveg megjelenítésének módjához, a bal, jobb és középső szintaxis alatt.

10.1.2. ábra a Text_FUNC lap a” képletek megjelenítése ” opcióval engedélyezve az a:C.

az alábbi 10.1.3.ábra az F:H oszlopokban található képleteket mutatja be a keresés és a keresés közötti különbség szemléltetésére, valamint bemutatja az adott tartományokban lévő adatok tartalmának előállításához használt felső, alsó, megfelelő, érték és SZÖVEGFÜGGVÉNYEKET.

ábra 10.1.3 a Text_FUNC a” Show képletek ” opció engedélyezve oszlopok F: H.

látogasson el a Microsoft hivatalos webhelyére az Excel általános szöveges funkcióinak listájához.

figyelje meg a viszonylag egyszerű képletek és beágyazott alternatívák használatával elérhető feladatok sokféleségét.

“Megjegyzés: Bár a szöveg funkcióval módosíthatja a formázást, ez nem az egyetlen módja. A formátumot képlet nélkül megváltoztathatja a CTRL+1 (vagy a Mac parancsgomb ikonjának képe +1 A Mac-en) megnyomásával, majd válassza ki a kívánt formátumot a Cellák formázása > szám párbeszédpanelen (forrás).”

fontolja meg ezeknek a funkcióknak a lehetséges felhasználását az adatok tisztítása érdekében. Újra megvizsgáljuk ezeket a funkciókat, valamint a határolók használatát a fejezet gyakorlatában.

forrás:

fejezet: Emese felv. CC BY-NC-SA 3.0. A https://www.generatedata.com/ és a https://mockaroo.com Dummy adathalmazokat itt oktatási célokra archiválják.

Médiakijelzések

  • Alak_10-1
  • Alak_10-2
  • Alak_10-3

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg