Kolmogorov-Test - Smirnoff (K-S)

Inhaltsverzeichnis:

Kolmogorov-Test - Smirnoff (K-S)
Kolmogorov-Test - Smirnoff (K-S)
Anonim

Der Kolmogorov-Smirnoff (K-S)-Test ist ein nicht-parametrischer Test, der darauf abzielt, zu bestimmen, ob die Häufigkeit von zwei verschiedenen Datensätzen der gleichen Verteilung um ihren Mittelwert folgt.

Mit anderen Worten, der Kolmogorov-Smirnoff (K-S)-Test ist ein Test, der sich an die Form der Daten anpasst und verwendet wird, um zu überprüfen, ob zwei verschiedene Stichproben der gleichen Verteilung folgen.

Warum ist es ein nichtparametrischer Test?

Das Schöne an der „nicht-parametrischen“ Eigenschaft ist, dass sie zu den Daten und folglich zu den Verteilungen passt, die der Häufigkeit der Daten folgen können. Außerdem erspart uns diese Funktion die Annahme a priori welcher Verteilung folgt die Stichprobe.

Bedeutung des K-S-Tests

Wie oft haben wir zwei Stichproben erhalten und den Korrelationskoeffizienten von Pearson berechnet, ohne lange nachzudenken? Mit anderen Worten, wenn wir die lineare Beziehung zwischen zwei Datensätzen sehen möchten, wäre es fair, die Korrelation zu berechnen, oder?

Dieser Abzug wäre richtig, wenn die Verteilungen der beiden Stichproben einer Normalverteilung folgen. Der Korrelationskoeffizient geht davon aus, dass die Verteilungen normal sind. Wenn wir diese Annahme überspringen, ist das Ergebnis des Korrelationskoeffizienten falsch. Für die Hypothesentests und die Konfidenzintervalle nehmen wir außerdem an, dass die Grundgesamtheit über eine Normalverteilung verteilt ist.

Wie bei allen statistischen Hypothesentests ist es wichtig, eine große Datenmenge zu haben, um statistisch signifikante Ergebnisse zu erzielen. Wir können eine Nullhypothese fälschlicherweise ablehnen, weil die Stichprobe klein ist. Darüber hinaus ist es auch wichtig, dass diese Stichprobe einige Extremfälle aufweist (Ausreißer, auf Englisch), um dem Testergebnis Konsistenz zu verleihen.

Testprozedur

Der Ablauf der nächsten Schritte.

Hypothese

Der erste Schritt besteht darin, zu prüfen, ob beide Stichproben die gleiche Verteilung aufweisen. Dazu führen wir einen Hypothesentest unter der Annahme durch, dass beide Stichproben die gleiche Verteilung gegen die Alternativhypothese haben, dass sie unterschiedlich sind.

Statistisch

Wir arbeiten mit den kumulativen Verteilungsfunktionen zweier Stichproben, F1(x) und F2(x):

Keine Panik! Wir analysieren die obige Formel in Ruhe:

  • Der wichtige Teil der Formel ist der Differenzzeichen (-). Wir suchen nach vertikalen Unterschieden in den Verteilungen. Also subtrahieren wir beide kumulativen Verteilungsfunktionen.
  • Das Betreiber "max". Wir sind daran interessiert, die größte oder maximale Differenz zu finden, um zu sehen, wie unterschiedlich die beiden Verteilungen sein können.
  • Das Absolutwert. Wir verwenden den absoluten Wert, damit die Reihenfolge der Operatoren das Ergebnis nicht ändert. Mit anderen Worten, es spielt keine Rolle, welches F (x) das negative Vorzeichen hat:

Kritischer Wert

Für große Stichproben gibt es eine Annäherung an den kritischen Wert für K-S, die vom Signifikanzniveau (%) abhängt:

Wo1 und nein2 sind die Stichprobengröße für die F-Stichprobe1(x) und F2(x) bzw.

Einige berechnete kritische Werte:

Ablehnungsregel

App

Sehr oft möchten wir testen, ob sich zwei Verteilungen ausreichend voneinander unterscheiden, wenn wir Vorhersageszenarien erstellen möchten (wir arbeiten mit zwei Stichproben) oder wenn wir evaluieren möchten, welche Verteilung am besten zu den Daten passt (wir arbeiten mit nur einer Stichprobe).