Ausreißer mit der Normalverteilung - . erkennen

Inhaltsverzeichnis:

Ausreißer mit der Normalverteilung - . erkennen
Ausreißer mit der Normalverteilung - . erkennen
Anonim

Das Erkennen von Ausreißern durch die Normalverteilung ist ein Prozess, bei dem eine Standardabweichungsschwelle definiert wird und mit dem Extremwerte einer Stichprobe gefunden werden sollen.

Mit anderen Worten, Ausreißer durch die Normalverteilung zu erkennen bedeutet, Extremwerte eines Datensatzes durch die standardisierte Normalformel zu finden.

  • Die Werte Extreme werden genannt Ausreißer auf Englisch.
  • Die Werte intern werden genannt Insider auf Englisch.

Die visuelle Erkennung von Ausreißern kann eine Option sein, wenn Sie nur sehr wenige Daten haben. Bei der Arbeit mit Datenbanken ist es sehr unpraktisch, Ausreißer manuell finden zu müssen. Um dieses Problem zu lösen, können wir berechnen, welche Werte als extrem gelten, indem wir mit einer Abweichungsschwelle vergleichen.

Im Fall der Normalverteilung gilt ein Wert als extrem, wenn er 3 Standardabweichungen vom Mittelwert entfernt ist. Da die Normalverteilung 2 Schwänze hat, müssen wir berücksichtigen, dass sie sowohl auf der negativen als auch auf der positiven Seite herausgezoomt werden kann.

Formel zum Erkennen von Ausreißern mithilfe der Normalverteilung

Eine Reihe von Beobachtungen kann auf die vorherige Weise ausgedrückt werden, wobei x der Mittelwert ist, über dem die Werte schwingen, und Sigma die Streuung der Schwingung dieser Werte. Mit anderen Worten, Sigma ist der Abstand der Beobachtungen vom Mittelwert.

Der multiplikative Faktor bestimmt, ob es sich um einen Ausreißer oder einen Insider handelt. Wenn z die Werte 3 oder -3 annimmt, ist die Beobachtung y gemäß der Normalverteilung ein Ausreißer.

Den Wert von . kennen z Wir verwenden die vorherige Gleichung:

  • Wenn z> = 3 oder z = <-3, dann können wir gemäß der Normalverteilung sagen, dass Ja es ist ein Extremwert oder Ausreißer.
  • Wenn z <3 oder z <-3, dann können wir gemäß der Normalverteilung sagen, dass Ja ist ein interner Wert oder Insider.

Normaler Standard

Ist die obige Gleichung bekannt?

Genau, es ist der Ausdruck einer Beobachtung, die einer Normalverteilung folgt, sobald sie standardisiert oder typisiert wurde. Es wird so genannt, weil bei der Division durch die Standard- oder Standardabweichung die Differenz des Zählers in Abweichungen ausgedrückt wird.

Aus diesem Grund können wir Abweichungswerte zuordnen zu z und somit mit der Schwelle von 3 Abweichungen kaufen zu können.

Beispiel

Finden Sie die Extremwerte der folgenden Beobachtungen gemäß der Normalverteilung:

Wir stellen die Beobachtungen in einem Diagramm dar:

Wir sehen bereits zu Beginn, dass der Wert, der am weitesten vom Rest entfernt ist, höchstwahrscheinlich ein Ausreißer sein kann.

Zuerst berechnen wir den Mittelwert und die Standardabweichung:

x = Mittelwert = 5,8

Sigma = Standardabweichung = 10,51

Dann setzen wir die Werte in die Formel ein und berechnen den Wert von z für jede Beobachtung:

Die obigen Werte sind die multiplikativen Faktoren von Sigma, dh z. Alles, was größer als 3 oder kleiner als -3 ist, ist ein Extremwert.

Wir sehen, dass der Wert von z die 3 Standardabweichungen überschreitet, entspricht der Beobachtung 49.

Daher wäre der Extrem- oder Ausreißerwert des Datensatzes 49.