Data Mining ist der Prozess des Durchsuchens großer Datenbanken, um nützliche Informationen zu finden, die für die Entscheidungsfindung verwendet werden können. Auch der englische Begriff „Data Mining“ wird verwendet.
Es kann als die Technologie und Software verstanden werden, die verwendet wird, um Verhaltensmuster innerhalb der Datenbank zu finden. Die grundlegende Grundlage dafür ist, dass diese Muster bei der Entscheidungsfindung helfen. Es könnte beispielsweise Unternehmen helfen, die Verhaltensmuster ihrer Kunden zu verstehen. In einer Weise, die die Etablierung von Strategien zur Umsatzsteigerung oder Kostensenkung erleichtern würde.
Vorteile von Data-Mining
Der grundlegende Vorteil dieses Datenanalyseverfahrens ist die große Anzahl von Geschäftsszenarien, auf die es angewendet werden kann, als Beispiel haben wir:
- Prognose: Prognose des Unternehmensumsatzes.
- Wahrscheinlichkeit: Auswahl der besten Kunden für den direkten Kontakt per Telefon oder E-Mail.
- Sequenzanalyse: Analyse der von Kunden gekauften Produkte und Überprüfung der Wechselbeziehungen zwischen ihnen.
Phasen des Data Mining
Innerhalb eines Data-Mining-Prozesses finden wir fünf Phasen:
- Zielsetzung und Datenerhebung: Zunächst müssen wir uns darauf konzentrieren, welche Art von Informationen wir erhalten möchten. Stellen wir uns das Beispiel vor, dass ein Supermarkt wissen möchte, zu welcher Tageszeit die meisten Kunden anwesend sind. Dies wäre das Ziel und die Information, die der Handel in diesem Fall erhalten möchte.
- Datenverarbeitung und -verwaltung: Sobald wir wissen, welche Daten wir sammeln möchten, setzen wir die Daten um. Dies ist vielleicht die schwierigste Phase des Prozesses. Nun, es erfordert die Auswahl der repräsentativen Probe, an der die Analyse durchgeführt werden soll. Nachdem die Stichprobe ausgewählt wurde, muss analysiert werden, welche Art von Variablen oder Regressionsmodell mit der Stichprobe durchgeführt werden soll.
- Modellauswahl: Sie ist eng mit der vorherigen Phase verwandt. Es geht darum, ein Modell oder einen Algorithmus zu erstellen, der uns das bestmögliche Ergebnis liefert. Dazu muss eine umfassende Analyse der in das Modell einzubeziehenden Variablen durchgeführt werden. Dies wird eine komplizierte Aufgabe, da sie von der Art der zu analysierenden Informationen abhängt. Daher führen Data Miner verschiedene Tests des Algorithmus durch, wie zum Beispiel: lineare Regression, Entscheidungsbaum, Zeitreihen, neuronales Netz usw.
- Analyse und Überprüfung der Ergebnisse: Grundsätzlich geht es darum, die Ergebnisse daraufhin zu analysieren, ob sie eine logische Erklärung liefern. Erklärung, die die Entscheidungsfindung auf der Grundlage der durch die Ergebnisse gelieferten Informationen erleichtert.
- Modell-Update: Der letzte Schritt des Prozesses wäre die Aktualisierung des Modells. Es ist sehr wichtig, dass es im Laufe der Zeit durchgeführt wird, damit es nicht veraltet ist. Die Variablen des Modells könnten unbedeutend werden und daher ist eine periodische Kontrolle des Modells erforderlich.