Clusteranalyse - Was ist das, Definition und Konzept

Inhaltsverzeichnis:

Anonim

Die Clusteranalyse ist eine Reihe multivariater statistischer Techniken, die darauf abzielen, eine Reihe von Fällen oder Einzelpersonen in Cluster oder Cluster zu gruppieren.

Die Clusteranalyse ist daher eine Art statistischer Gruppierung. Ziel ist es, die Daten in jedem Cluster möglichst ähnlich und in Bezug auf die anderen Gruppen so unterschiedlich wie möglich zu gestalten. Dies ist auch mit Variablen möglich.

Datentransformation in der Clusteranalyse

Eines der Probleme, auf das wir beim Gruppieren von Daten stoßen, besteht darin, dass Daten manchmal in unterschiedlichen Maßeinheiten vorliegen. Aus diesem Grund muss ein Pre-Cluster-Analyseschritt durchgeführt werden, der das Clustern ermöglicht.

Die gebräuchlichste Methode ist die Standardisierung. Dies wird verwendet, um die Daten so zu transformieren, dass sie ähnliche Maßeinheiten haben. Zwei Regeln sind zu beachten, binäre Variablen sind nicht standardisiert und wenn sie kategorial sind, werden sie binär (Anwesenheit / Abwesenheit).

Methoden der Clusteranalyse

Es gibt viele Methoden, um die Clusteranalyse durchzuführen, aber in Economy-Wiki.com werden wir, dem uns charakterisierenden Prinzip der Einfachheit folgend, schematisch die relevantesten sehen.

Hierarchische Methoden

Eine erste Klassifizierung wären hierarchische oder nicht-hierarchische Verfahren. Erstere gruppieren Individuen in hierarchische Phasen (daher ihr Name). Auf diese Weise wechselt jeweils nur ein Objekt die Gruppe, der Rest bleibt an derselben Stelle.

Diese wiederum werden unterteilt in:

Agglomerative Methoden

Es besteht darin, Individuen jedes Mal in weniger Cluster zu gruppieren. Es beginnt mit einer Anzahl von Gruppen, die der Anzahl der Fälle entspricht, und nimmt ab.

Die bekanntesten sind:

  • Nächster Nachbar Methode: In diesem Fall verwenden Sie einen Algorithmus, um die Daten zu gruppieren. Was Sie suchen, ist der Mindestabstand zwischen den nächsten Personen. Es ist sehr empfindlich gegenüber Daten, die sogenanntes "Rauschen" verursachen können. Die Methode des entferntesten Nachbarn ist ähnlich.
  • Durchschnittliche Methode zwischen Gruppen: Es berechnet den Mittelwert der Entfernung zwischen den Individuen einer Gruppe und einem von ihnen im Besonderen. Es ist sehr nützlich, das sogenannte "Rauschen" zu reduzieren.
  • Wards Methode: Er addiert die Quadrate der Abweichungen zwischen jedem Individuum und dem Mittelwert seines Clusters, um Informationsverluste zu vermeiden. Es ist eines der bekanntesten und hat die Vorteile des auf dem Mittelwert basierenden Verfahrens, aber eine größere Unterscheidungskraft.

Dissoziative Methoden

In diesem Fall teilen Sie sich. Es beginnt mit einem einzelnen Cluster, und Aufteilungen werden basierend auf einer Reihe von Anforderungen vorgeschlagen.

Die häufigsten sind:

  • Mittelwert zwischen Gruppen, nächster Nachbar und entfernteste Nachbarmethode neighbor: Diese drei Methoden ähneln dem vorherigen Fall, verwenden jedoch die dissoziative Methode. Das heißt, was wir diesmal tun, ist getrennt und nicht in Gruppen.
  • Schwerpunktmethode: Es wird häufig bei Problemen mit der Standortoptimierung von Einrichtungen verwendet. Verwenden Sie diese Art der Analyse, um die am besten geeigneten zu finden.

Nicht-hierarchische Methoden

In diesem Fall beginnen sie mit einer voreingestellten Lösung. Dies ist der Ausgangspunkt für die Clusteranalyse. Auf diese Weise werden die Gruppen im Voraus gebildet und jeder Fall wird je nach seinen Eigenschaften in eine von ihnen eingeordnet. Wir können sie wiederum in andere Untergruppen unterteilen.

  • Neuzuweisungsmethoden: Am relevantesten sind die Schwerpunktmethoden wie k-Means. Die von Medioiden, wie PAM. Oder die von dynamischen Wolken.
  • Direkte Methoden: Das wichtigste ist das Block-Clustering, das im Data Mining weit verbreitet ist.
  • Reduzierende Methoden: Diese basieren auf Faktorenanalysen.
  • Dichtesuchmethoden: Da wären zum einen typologische Ansätze, wie etwa die Modalanalyse. Auf der anderen Seite haben wir die Wahrscheinlichkeitsrechnungen wie die von Wolf.

Beispiele für die Clusteranalyse

Sehen wir uns abschließend einige Beispiele für Anwendungen zur Clusteranalyse an.

  • Stellen wir uns vor, wir haben eine Gruppe von Ländern, die wir basierend auf bestimmten makroökonomischen Variablen wie Inflation oder Arbeitslosigkeit gruppieren möchten. Wir können diese Art der Analyse verwenden, um homogene Gruppen zu bilden, zum Beispiel mehr oder weniger entwickelte Länder.
  • Ein anderes Beispiel könnte eine Reihe von Verbrauchern mit bestimmten soziodemografischen Merkmalen sein. Die Idee ist, Gruppen mit ähnlichen Personen zu bilden, die sich wiederum stark voneinander unterscheiden.
  • Aber neben den Wirtschaftswissenschaften ist die Clusteranalyse auch in anderen Wissenschaften nützlich. Zum Beispiel in der Biologie, um Arten zu klassifizieren, oder in der Geologie, um dasselbe mit Mineralien zu tun.