Bevor wir mit unseren Daten arbeiten können, müssen wir sicherstellen, dass sie gültig, genau und zuverlässig sind. Im Zeitalter von Big Data geben Unternehmen möglicherweise genauso viel oder mehr für die Aufrechterhaltung der Gesundheit und die Bereinigung ihrer Daten aus wie für die Erfassung oder den Kauf von Daten. Berücksichtigen Sie die Probleme, die sich aus fehlenden oder falschen Werten, Duplikaten und Tippfehlern ergeben können. Die Gültigkeit, Genauigkeit und Zuverlässigkeit Ihrer Berechnungen hängt von Ihrer Fähigkeit ab, Ihre Daten auf dem neuesten Stand zu halten. Viele Schätzungen zeigen, dass etwa 30% Ihrer Daten im Laufe der Zeit ungenau werden können (JD Supra, 2019; Strategic DB, 2019), und selbst kleine Datensätze können kostspielig zu bereinigen sein, ganz zu schweigen von Dateien, die Zehntausende oder hunderttausende Datensätze tief sind – oder viel mehr, wenn Sie große Datenbanken verwenden.

Es gibt viele Datenbereinigungslösungen für eine Vielzahl von Dateiformaten, Datenmengen oder Budgets. Es gibt jedoch viele Dinge, die wir mit Excel-Funktionen und -Funktionen erreichen können, damit Sie unsere Daten schnell und effektiv verarbeiten können. Anstatt eine Anwendung zu kaufen, einem Mitarbeiter die Datenbereinigung zuzuweisen oder einen Dienst zum Bereinigen Ihrer Daten für Datensätze unter einer Million pro Blatt zu beauftragen, können Sie mit Excel mithilfe einer Vielzahl von Funktionen und Funktionen viel Zeit und Geld sparen. Tabelle 10.1 zeigt Ihnen einige wichtige Funktionen, mit denen Sie Ihre Daten bereinigen können.

CLEAN Entfernt alle nicht druckbaren Zeichen aus dem Text.
TRIM Entfernt alle Leerzeichen aus dem Text mit Ausnahme einzelner Leerzeichen zwischen Wörtern.
VERKETTEN Verbinden Sie zwei oder mehr Textzeichenfolgen zu einer Zeichenfolge.
LEFT Gibt einen String zurück, der eine bestimmte Anzahl von Zeichen von der linken Seite eines Strings enthält.
RIGHT Gibt einen String zurück, der eine bestimmte Anzahl von Zeichen von der rechten Seite eines Strings enthält.
MID Gibt eine bestimmte Anzahl von Zeichen aus einer Textzeichenfolge zurück.
SEARCH SEARCH gibt die Nummer des Zeichens zurück, bei dem ein bestimmtes Zeichen oder eine bestimmte Textzeichenfolge zuerst gefunden wurde.
FIND und FINDB Suchen Sie eine Textzeichenfolge innerhalb einer zweiten Textzeichenfolge.
UPPER Konvertiert Text in Großbuchstaben.
LOWER Konvertiert Text in Kleinbuchstaben.
PROPER Schreibt den ersten Buchstaben in einer Textzeichenfolge und alle anderen Buchstaben im Text, die einem anderen Zeichen als einem Buchstaben folgen. Konvertiert alle anderen Buchstaben in Kleinbuchstaben.
TEXT Ändern Sie die Darstellung einer Zahl, indem Sie sie mit Formatcodes formatieren.
VALUE Konvertiert eine Textzeichenfolge, die eine Zahl darstellt, in eine Zahl.

Tabelle 10.1 Ein Beispiel für Text- und Datenbereinigungsfunktionen in Excel.

Die folgenden Abschnitte zeigen die oben genannten Funktionen in Aktion. Die Ch10_Data_File enthält vier Blätter. Das Dokumentationsblatt vermerkt die Quellen unserer Daten. Text_FUNC Blatt verfügt über eine Vielzahl von häufigen Fehlern, die Sie in einem Datensatz sehen können, einschließlich Zeilenumbrüche an der falschen Stelle, zusätzliche Leerzeichen oder keine Leerzeichen zwischen Wörtern, nicht druckbare Zeichen, falsch groß geschrieben oder alle Großbuchstaben, alle Kleinbuchstaben Text, schlecht formatierte Datenwerte. Das DataGen_Companies-Blatt enthält eine Reihe von „Dummy“ -Daten (plausibel, aber nicht real) über Unternehmen, die bei https://www.generatedata.com/ generiert wurden und die der Autor dieses Kapitels absichtlich mit häufigen Fehlern in Daten injiziert hat, um sie zu entfalten und zu verarbeiten, um Excel-Funktionen für den Kapitel-Übungsabschnitt zu üben. Das Mockaroo_Cars-Blatt ist ein „Dummy“ -Datensatz über Verbraucher und ihre Adressen, der bei https://mockaroo.com/ generiert wurde. Beide „Dummy“ -Datensätze werden hier zu Bildungszwecken archiviert.

Abbildung 10.1.1 unten zeigt das Text_FUNC-Blatt mit einer Vielzahl häufiger Fehler bei Daten, die Sie aus anderen Quellen importieren. Der Trimmbereich CONCATENATE & ist ein Beispiel dafür, wie eine einzelne Textzeile aus dem Inhalt von drei Zeilen erstellt werden kann, indem zwei Excel-Funktionen verschachtelt werden. CONCATENATE allein führt die drei Zellen zu einer zusammen, aber allein bewirkt es nichts über die zusätzlichen Leerzeichen, die wir im Text sehen. TRIM entfernt alle Leerzeichen, was bedeutet, dass wir “ “ hinzufügen müssen, damit Excel die benötigten leeren Zellen zwischen den Wörtern hinzufügen kann.

Abbildung 10.1.1 Das Text_FUNC-Blatt mit Original- und bereinigtem Inhalt nebeneinander.

Der LINKE, RECHTE und MITTLERE Bereich in den Spalten A: C veranschaulichen einen weiteren gemeinsamen Satz von Funktionen, die zur Verarbeitung von Daten verwendet werden. Oft werden Daten in großen Blöcken zusammengeführt. Während wir die Funktion Data > Text to Columns mit Trennzeichen verwenden können, um Excel mitzuteilen, wo unsere Daten aufgeteilt werden sollen, verarbeiten die Funktionen LEFT, RIGHT und MID Daten aus bestimmten Richtungen, je nachdem, wo sich in der Zeichenfolge der Text oder die Zahl befindet, die wir extrahieren möchten. B9 und B10 zeigen eine Teilenummer Wir können Teile der Verwendung der MID-Funktion in C9, C10 extrahieren. B12 und B13 zeigen Kursnummern Wir können Teile der Verwendung der RECHTEN und LINKEN Funktionen in C12, C13 extrahieren.

Abbildung 10.1.2 zeigt die Formeln in den Spalten A:C zur Veranschaulichung der Kombination von VERKETTEN und TRIMMEN auf verschiedene Arten verschachtelt, um die beste Konfiguration für die Ausgabe so zu finden, wie unser Text angezeigt werden soll, wobei die Syntax für LINKS, RECHTS und MITTE darunter angezeigt wird.

Abbildung 10.1.2 Das Text_FUNC-Blatt mit der Option „Formeln anzeigen“, die für die Spalten A: C aktiviert ist.

Abbildung 10.1.3 unten zeigt die Formeln in den Spalten F:H, um den Unterschied zwischen FIND und SEARCH zu veranschaulichen, sowie die Funktionen UPPER, LOWER, PROPER, VALUE und TEXT, die zum Erstellen des Inhalts für Daten in diesen Bereichen verwendet werden.

Abbildung 10.1.3 Text_FUNC mit aktivierter Option „Formeln anzeigen“ für die Spalten F:H.

Auf der offiziellen Microsoft-Website finden Sie eine Liste der gängigen Textfunktionen in Excel.

Beachten Sie die Vielfalt der Aufgaben, die Sie mit relativ einfachen Formeln und verschachtelten Alternativen lösen können.

“ Hinweis: Obwohl Sie die Textfunktion verwenden können, um die Formatierung zu ändern, ist dies nicht die einzige Möglichkeit. Sie können das Format ohne Formel ändern, indem Sie STRG + 1 (oder Bild des MAC-Befehlstaste-Symbols +1 auf dem Mac) drücken und dann das gewünschte Format im Dialogfeld Zellen formatieren > auswählen (Quelle).“

Erwägen Sie mögliche Verwendungen dieser Funktionen, um Ihre Daten zu bereinigen. Wir werden diese Funktionen und die Verwendung von Trennzeichen im Kapitel Praxis erneut betrachten.

NAMENSNENNUNG

Kapitel von Emese Felvégi. CC DURCH-NC-SA 3.0. Dummy-Datensätze von https://www.generatedata.com/ und von https://mockaroo.com werden hier zu Bildungszwecken archiviert.

Medienzuordnungen

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg