Die Qualität Ihrer Datenanalyse hängt von der Qualität der dahinterliegenden Daten ab. Deshalb ist die Datenbereinigung in Excel so wichtig. Excel-Daten voller Fehler und Inkonsistenzen stellen ein erhebliches Problem dar: 20 % der IT- und Datenverantwortlichen geben an, dass schlechte Datenqualität eine der größten Herausforderungen für sie darstelle.
Saubere Daten sind die Grundlage für qualitativ hochwertige Daten und genaue Erkenntnisse aus der Datenanalyse. Niemand möchte Fehler in seinen Ergebnissen sehen – oder schlimmer noch, dass Fehler unentdeckt bleiben und Geschäftsentscheidungen falsch beeinflussen.
Was ist Datenbereinigung in Excel?
Datenbereinigung in Excel ist der Prozess, bei dem Rohdaten für die Analyse vorbereitet werden, indem fehlerhafte Daten entfernt, die Rohdaten organisiert und die Nullwerte ausgefüllt werden. Die Arbeit mit sauberen Daten ist eine Voraussetzung, um aussagekräftige und genaue Erkenntnisse aus Ihren Daten zu gewinnen.
Datenbereinigung ist nur einer der Schritte im Datenvorbereitungsprozess, der sicherstellt, dass die Daten für die Analyse und Berichterstellung bereit sind. Die Datenvorbereitung umfasst außerdem:
- Datenexploration: Finden Sie heraus, welche Überraschungen das Dataset bereithält.
- Datenzusammenführung: Führen Sie mehrere Datasets zusammen und gewinnen Sie neue Erkenntnisse.
- Datenprofilierung: Erkennen Sie minderwertige Daten, ehe sie Ihre Ergebnisse verfälschen.
- ETL (Extract-Transform-Load): Aggregieren Sie Daten aus verschiedensten Quellen.
- Data Wrangling: Machen Sie Daten für Ihre analytischen Modelle nutzbar.
Was sind die Bestandteile sauberer Daten?
- Genauigkeit: Genauigkeit bedeutet, dass Ihre Daten die realen Werte, die sie darstellen, korrekt anzeigen. Dies stellt sicher, dass die angezeigten Informationen fehlerfrei sind und den tatsächlichen Zustand der Daten widerspiegeln.
- Konsistenz: Konsistenz bedeutet, dass Daten über verschiedene Datasets und Zeiträume hinweg gleich bleiben. Bereinigte Daten enthalten durchgehend die gleichen Formate und Maßeinheiten.
- Vollständigkeit: Datenvollständigkeit bezieht sich auf das Ausmaß, in dem alle erforderlichen Informationen in einem Dataset vorhanden sind. Wenn Ihre Daten unvollständig sind und wichtige Details fehlen, kann sich dies auf die Ergebnisse auswirken. Achten Sie darauf, Lücken zu schließen oder fehlende Werte in Ihrer Analyse zu berücksichtigen.
- Einheitlichkeit: Einheitlichkeit ist der Grad, in dem die Daten dieselbe Maßeinheit oder ein kohärentes Format und eine kohärente Struktur verwenden. Dazu gehört die Verwendung derselben Maßeinheiten oder die Formatierung von Datumsangaben und die Kennzeichnung in Kategorien.
- Gültigkeit: Gültigkeit bedeutet, dass die Datenwerte innerhalb des vorgegebenen akzeptablen Bereichs liegen und den erwarteten Mustern entsprechen. Wenn beispielsweise ein gültiger Alterseintrag zwischen 0 und 120 Jahren liegen sollte, werden Validierungsregeln und -prüfungen angewendet, um sicherzustellen, dass die Daten dieses Kriterium erfüllen. Dadurch wird verhindert, dass Ausreißer und fehlerhafte Eingaben die Ergebnisse verzerren.
Techniken zum Bereinigen von Daten in Excel
Die überwiegende Mehrheit der Business Analysts hat gelernt, wie man Daten in Excel bereinigt. Angesichts der großen Anzahl von Excel-Datenbereinigungstechniken ist dies in der Regel jedoch ein fortlaufender Prozess. Um Data Analysts den Einstieg zu erleichtern (oder ein paar alte Tricks wieder aufzufrischen), haben wir die gängigsten Methoden zum Bereinigen von Daten in Excel mit Anweisungen für jede Datenbereinigungstechnik ausgewählt.
Duplikate entfernen
Eine der einfachsten Datenbereinigungstechniken in Excel ist das Entfernen von Duplikaten. Verschiedene Datenteile werden oft als unterschiedliche Datasets und manchmal in unterschiedlichen Datenbanken gespeichert. Duplikate treten auf, wenn die Daten konsolidiert werden – selbst durch einfaches Kopieren und Einfügen aus verschiedenen Quellen. Duplizierte Werte können ohne Wissen des Benutzers/der Benutzerin auftreten, daher ist es wichtig, diesen Schritt zu tun, um saubere Daten zu erhalten. Befolgen Sie diese einfachen Anweisungen, um Duplikate in Excel zu entfernen.
- Wählen Sie die Zellen aus, die Sie auf Duplikate prüfen möchten.
- Wählen Sie in der Symbolleiste die Option „Daten“ aus und im Menüband „Daten-Tools“ die Option „Duplikate entfernen“.
- Klicken Sie anschließend auf OK.
Überschüssige Leerzeichen entfernen
Um diese schwer zu erkennenden zusätzlichen Leerzeichen zu entfernen, können Data Analysts die TRIM-Funktion verwenden, die vorangehende und nachgestellte Leerzeichen sowie zusätzliche Leerzeichen zwischen Wörtern entfernt. Dies dient nicht nur der Ästhetik – das Entfernen der Leerzeichen in Excel ist wichtig, um diese Werte durch Funktionen wie SVERWEIS (VLOOKUP) anzeigen zu können. Und das geht so:
- Die TRIM-Funktion kann manuell verwendet werden, es ist aber auch möglich, sie im Zusammenhang mit der SVERWEIS-Funktion zu verwenden. Auf diese Weise können Benutzer:innen alle hinzugefügten Leerzeichen suchen und korrigieren, während sie die gesuchten Übereinstimmungen finden.
- Ihre SVERWEIS-Formel würde dann aus Folgendem bestehen:
- TRIM + der Suchwert, ohne zusätzliche Leerzeichen
- dem Suchbereich
- der Spalte mit dem zurückzugebenden Wert
- 0 (für genaue Übereinstimmung)
Text suchen und ersetzen
Die Funktion „Suchen und Ersetzen“ ist für verschiedene Datenbereinigungstechniken nützlich. Eine davon ist die Standardisierung von Werten für Datasets, die Werte in mehreren Varianten speichern können. Sie können Suchen und Ersetzen verwenden, um sie nacheinander zu bearbeiten.
- Wählen Sie die Zelle oder Spalte aus.
- Gehen Sie zu Start > Suchen und Ersetzen.
- Geben Sie einen Wert für die Option Suchen nach ein.
- Geben Sie den Wert ein, durch den Sie ihn ersetzen möchten.
- Klicken Sie auf „Alle ersetzen“, wenn Sie die Option auf das gesamte Tabellenblatt anwenden möchten.
Das Adressieren leerer Zellen ist eine weitere Möglichkeit, die Funktion „Suchen und Ersetzen“ beim Bereinigen von Daten in Excel zu verwenden. Wenn sie nicht behandelt werden, werden sie oft als Fehler interpretiert oder nicht in die Endanalyse einbezogen, wenn sie ursprünglich „0“ bedeuten sollten.
- Um alle leeren Zellen auszuwählen, brauchen Benutzer:innen nur das Dialogfeld „Gehe zu“ zu öffnen, „Spezial“ auszuwählen und dann „Leerzeichen“ oder alle Leerzeichen in Ihrer Zelle auszuwählen.
- Von dort aus ist es einfach, einen einheitlichen Wert wie „0“ oder „N/A“ einzugeben, indem man die Strg-Taste und die Eingabetaste drückt.
Prüfen Sie auf Tippfehler und falsch geschriebene Wörter
Falsch geschriebene Begriffe können überall vorkommen, daher ist es eine gute Idee, Ihre Daten immer auf Rechtschreib- und Tippfehler zu überprüfen.
- Wählen Sie die Datenzelle, Spalte oder das Tabellenblatt aus, in der/dem Sie auf Rechtschreibfehler prüfen möchten.
- Gehen Sie als Nächstes zur Überprüfungsoption und wählen Sie „Rechtschreibung“.
- Excel zeigt im Dialogfeld automatisch die korrekte Schreibweise an. Klicken Sie auf „Ändern“, wenn Sie mit dem Vorschlag einverstanden sind.
Formate standardisieren
Die Korrektur der Formatstruktur in Excel ist eine der häufigsten Herausforderungen bei der Datenbereinigung. Während die meisten Datenbanken strukturierte Daten enthalten, gibt es Zeiten, in denen Formate falsch erkannt werden oder es zu Nichtübereinstimmungen in Datenformaten kommt. Die Formatierung in Excel ist der Prozess der Änderung von Daten in Tabellenblättern von einer Form in eine andere. Es gibt verschiedene Möglichkeiten, Formate in Excel zu standardisieren.
- Verwendung des Formatierungs-Tools in Excel
- Wählen Sie einen Datumsbereich aus.
- Machen Sie einen Rechtsklick und wählen Sie „Zellen formatieren“.
- Passen Sie die Formateinstellung nach Bedarf an.
- Verwendung von Power Query zum Erkennen und Ändern von Datentypen und -formaten
- Gehen Sie zu Power Query.
- Wählen Sie eine Datenquelle aus.
- Gehen Sie zur Funktion Abfrage > Bearbeiten.
- Wählen Sie eine Spalte aus und suchen Sie dann unter „Transformieren“ nach „Datentyp erkennen“.
- Wählen Sie einen Datentyp oder ein Format aus der Dropdown-Liste aus.
Leere Zellen verwalten
Es gibt keinen einheitlichen Ansatz für den Umgang mit leeren Zellen in Ihrem Dataset. Es ist jedoch hilfreich, den Grund zu kennen, warum Zellen überhaupt leer sind. Hier sind die gängigsten Methoden zum Umgang mit leeren Zellen in Excel:
- Das Löschen leerer Zellen
- Wählen Sie den Bereich aus, den Sie löschen möchten.
- Machen Sie einen Rechtsklick auf die Auswahl.
- Wählen Sie „Löschen“ und wählen Sie dann aus, ob Sie Zellen nach oben, links oder ganze Zeilen/Spalten verschieben möchten.
- Bedingte Formatierung
- Wählen Sie „Bedingte Formatierung“ von der Registerkarte „Start“ aus.
- Wählen Sie „Neue Regel“.
- Wählen Sie einen Regeltyp aus.
- Wählen Sie aus, wie Sie die Leerzeichen formatieren möchten.
- Das Filtern der Daten
- Wählen Sie im Start-Register unter „Bearbeiten“ die Option „Filter“ aus.
- Fügen Sie den Spalten, die Sie filtern möchten, einen Filter hinzu.
- Klicken Sie auf den Datenpfeil für die ausgewählten Spalten.
- Deaktivieren Sie alle Kontrollkästchen mit Ausnahme des Kontrollkästchens „Leerzeichen“.
Spalten aufteilen und zusammenführen
Wenn Sie Datasets haben, die in separate Spalten aufgeteilt werden müssen, können Sie die Funktion „Text in Spalten“ in Excel verwenden.
- Wählen Sie den Datumsbereich der Daten aus.
- Gehen Sie zum Register „Daten“.
- Klicken Sie auf „Text-in-Spalten“.
- Befolgen Sie die Schritte, um die Trennzeichen anzugeben und die Daten aufzuteilen.
Das Zusammenführen von Daten aus mehreren Spalten ist eine weitere effektive Möglichkeit, Daten in Excel zu bereinigen. Die einfachste Methode ist die Verwendung der Funktion VERKETTEN (CONCATENATE) oder des kaufmännischen Und-Operators (&).
Den Inhalt einer Zelle auf benachbarte Spalten verteilen
Wenn Data Analysts erstmals mit der Datenbereinigung in Excel beginnen, ist dies eine weitere Frage, die sich zu Beginn stellt. Data Analysts haben normalerweise keine absolute Kontrolle darüber, wie Daten erfasst werden, was bedeutet, dass zu viele Daten in einer Zelle erfasst werden können. Bei Sensordaten werden beispielsweise Datum und Uhrzeit in einem einzigen Wert zusammengefasst, obwohl es oft hilfreicher wäre, die beiden Werte in zwei Spalten zu trennen. Und das geht so:
- Wählen Sie die Zelle, den Bereich oder die gesamte Spalte aus, die die Textwerte enthält, die Sie aufteilen möchten.
- Klicken Sie auf der Registerkarte „Daten“ in der Gruppe „Datentools“ auf „Text in Spalten“.
- Befolgen Sie die Anweisungen im Textkonvertierungs-Assistent, um anzugeben, wie Sie den Text in separate Spalten aufteilen möchten.
Die Herausforderungen der Datenbereinigung in Excel
Die Erfahrung mit der Bereinigung von Daten in Excel ist bewährt und vertraut. Data Analysts bereinigen seit Jahrzehnten erfolgreich Daten in Excel, um sie für die Analyse vorzubereiten.
Doch angesichts der immer größeren und komplexeren Datenmengen von heute ist Excel in die Jahre gekommen. Datenbereinigung funktioniert am besten, wenn Data Analysts mit den vorliegenden Daten relativ vertraut sind. Sie wissen, wonach sie suchen müssen und welche Arten von Fehlern behoben werden müssen. Wenn das nicht der Fall ist, ist es schwierig, ungültige Zahlen oder falsche Datumsangaben zu identifizieren, insbesondere wenn diese Daten bestimmte Formatstandards einhalten. Und wenn es darum geht, Dateninkonsistenzen zwischen mehreren Tabellenkalkulationen zu bewerten, wird die Bereinigung von Daten in Excel zu einem ganz eigenen komplexen Projekt.
Anstatt zu lernen, wie man Daten in Excel bereinigt, verwenden Data Analysts zunehmend neue Lösungen zur Datenvorbereitung, die mögliche Transformationen intelligent identifizieren und Fehler visuell aufdecken. Diese Art von Lösungen spiegelt die Richtung der Analysewelt wider: die Einführung von Plattformen, die benutzerfreundlich und flexibel sind und eine visuelle Interaktion ermöglichen.
Eine zeitsparende Alternative zum Bereinigen von Daten in Excel
Ohne eine angemessene Datenqualität leidet die Genauigkeit Ihrer endgültigen Analyse, oder Sie könnten zu falschen Schlussfolgerungen gelangen.
Auch wenn die Verwendung von Excel zur Bereinigung von Daten manchmal für einfache Datasets gut funktioniert, bieten neue Datenvorbereitungslösungen einen intelligenten Ansatz für die Bewältigung größerer und unbekannterer Daten.
Alteryx löst das Dilemma der Datenbereinigung. Es ermöglicht es Benutzer:innen, ihre Datasets interaktiv zu erkunden, indem sie auf Komponenten der Daten klicken, um neue und wichtige Wege zu entdecken, wie sie umgewandelt werden müssen. Anstelle eines Prozesses, der durch sorgfältige Schritte wie die Datenbereinigung in Excel gesteuert wird, präsentiert Designer Cloud automatisch vorgeschlagene Transformationen, die Benutzer:innen beurteilen und bearbeiten können. Mit Designer Cloud erstellen Benutzer:innen nicht nur gründlicher bereinigte Datasets, sondern erreichen dies auch in deutlich kürzerer Zeit.
Um mehr darüber zu erfahren, wie Designer Cloud funktioniert und ob es eine bessere Alternative für Ihren Anwendungsfall ist, vereinbaren Sie jetzt einen kostenlosen Demotermin.