Ausreißer - Was ist das, Definition und Konzept

Inhaltsverzeichnis:

Anonim

Ein Ausreißer ist eine abnormale und extreme Beobachtung in einer statistischen Stichprobe oder Zeitreihe von Daten, die möglicherweise die Schätzung ihrer Parameter beeinflussen kann.

Einfacher ausgedrückt wäre ein Ausreißer eine Beobachtung innerhalb einer Stichprobe oder eine Zeitreihe von Daten, die nicht mit dem Rest konsistent ist. Stellen Sie sich zum Beispiel vor, wir messen die Körpergröße der Schüler in einer Klasse.

Stellen wir uns eine Stichprobe von 10 Schülern vor. Die Höhe ist jeweils wie folgt:

Probe 1
SchülerHöhe in Metern
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Die durchschnittliche Größe der Klasse wäre 1,73. Wenn wir die maximale Höhe (1.85) und die minimale Höhe (1.62) und den Abstand zwischen ihnen zum Mittelwert berücksichtigen, sehen wir, dass dieser 0,113 bzw. 0,117 beträgt. Wie wir sehen, liegt der Mittelwert ungefähr in der Mitte des Intervalls und könnte als ziemlich guter Schätzwert angesehen werden.

Der Ausreißereffekt

Lassen Sie uns nun an eine weitere Stichprobe von 10 Schülern denken, deren Körpergrößen wie folgt sind:

Probe 1
SchülerHöhe in Metern
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

In diesem Fall wäre die durchschnittliche Größe der Klasse 1,81. Wenn wir uns nun die maximale Höhe (2,20) und die minimale Höhe (1.62) und den Abstand zwischen ihnen zum Mittelwert ansehen, sehen wir, dass dieser 0,39 bzw. 0,18 beträgt. In diesem Fall liegt der Mittelwert nicht mehr ungefähr in der Mitte des Bereichs.

Der Effekt der beiden extremsten Beobachtungen (2.18 und 2.20) hat dazu geführt, dass sich das arithmetische Mittel in Richtung des Maximalwertes der Verteilung verschoben hat.

An diesem Beispiel sehen wir, welchen Effekt Ausreißer haben und wie sie die Berechnung eines Durchschnitts verzerren können.

Wie erkennt man Ausreißer?

So korrigieren Sie den Effekt von Ausreißern

In Situationen wie dieser, in denen abnormale Werte vorliegen, die sich erheblich vom Rest unterscheiden, ist der Median eine bessere Schätzung, um zu wissen, an welcher Stelle eine größere Anzahl von Beobachtungen konzentriert ist.

Bei beiden Verteilungen und da wir eine gerade Anzahl von Werten haben, können wir nicht genau den Wert nehmen, der die Verteilung halbiert, um den Median zu berechnen. Damit würden wir nach dem Ordnen der Werte vom niedrigsten zum höchsten die fünfte und sechste Beobachtung nehmen (beide lassen 4 Beobachtungen auf jeder Seite) und wir würden den Median wie folgt berechnen:

Beispiel 1:

1,75+1,72/2 = 1,73

Probe 2:

1,79+1,71/2 = 1,75

Wie wir sehen können, beträgt der Median in Stichprobe Nummer 1, da es keine Ausreißer oder abnormalen Beobachtungen gibt, 1,73 und stimmt mit dem Mittel überein. Im Gegensatz dazu beträgt der Mittelwert für Probe 2 1,75. Wie wir sehen, ist dieser Wert weiter von der mittleren Höhe entfernt, die 1,81 betrug, und gibt uns eine Punktschätzung von höherer Qualität, um ungefähr zu wissen, an welchem ​​​​Punkt sich eine größere Anzahl von Beobachtungen konzentriert.

Punktschätzung