Ein Konfidenzintervall ist eine Schätztechnik, die bei der statistischen Inferenz verwendet wird und die es ermöglicht, ein Paar oder mehrere Wertepaare zu begrenzen, innerhalb derer die gewünschte Punktschätzung (mit einer bestimmten Wahrscheinlichkeit) gefunden wird.
Ein Konfidenzintervall ermöglicht es uns, zwei Werte um einen Stichprobenmittelwert herum zu berechnen (einen oberen und einen unteren). Diese Werte begrenzen einen Bereich, in dem sich der Populationsparameter mit einer gewissen Wahrscheinlichkeit befindet.
Konfidenzintervall = Mittelwert + - Fehlerspanne
Die wahre Bevölkerung zu kennen, ist im Allgemeinen etwas sehr Kompliziertes. Betrachten Sie eine Bevölkerung von 4 Millionen Menschen. Könnten wir die durchschnittlichen Konsumausgaben pro Haushalt dieser Bevölkerung kennen? Im Prinzip ja. Wir müssten einfach alle Haushalte befragen und den Mittelwert berechnen. Diesem Prozess zu folgen, wäre jedoch äußerst mühsam und würde die Studie ziemlich kompliziert machen.
In solchen Situationen ist es sinnvoller, eine statistische Stichprobe auszuwählen. Zum Beispiel 500 Leute. Berechnen Sie für diese Probe den Mittelwert. Obwohl wir den wahren Populationswert immer noch nicht kennen würden, könnten wir annehmen, dass er nahe am Stichprobenwert liegt. Dazu addieren wir die Fehlerspanne und haben einen Konfidenzintervallwert. Andererseits ziehen wir diese Fehlerspanne vom Mittelwert ab und erhalten einen anderen Wert. Zwischen diesen beiden Werten liegt der Bevölkerungsmittelwert.
Zusammenfassend lässt sich sagen, dass das Konfidenzintervall nicht dazu dient, eine Punktschätzung des Populationsparameters zu geben, wenn es uns helfen soll, eine ungefähre Vorstellung davon zu bekommen, welches der wahre sein könnte. Es ermöglicht uns, zwischen zwei Werten zu begrenzen, bei denen der Mittelwert der Grundgesamtheit gefunden wird.
VariationskoeffizientKumulative HäufigkeitFaktoren, von denen ein Konfidenzintervall abhängt
Die Berechnung eines Konfidenzintervalls hängt hauptsächlich von folgenden Faktoren ab:
- Ausgewählte Stichprobengröße: Abhängig von der Datenmenge, die zur Berechnung des Stichprobenwerts verwendet wurde, liegt er mehr oder weniger nahe am wahren Populationsparameter.
- Vertrauensniveau: Es wird uns mitteilen, in welchem Prozentsatz der Fälle unsere Schätzung richtig ist. Die üblichen Werte sind 95% und 99%.
- Fehlerspanne unserer Schätzung: Dies wird Alpha genannt und informiert uns über die Wahrscheinlichkeit, dass der Populationswert außerhalb unseres Bereichs liegt.
- Die in der Stichprobe geschätzten Werte (Mittelwert, Varianz, Mittelwertdifferenz …): Davon hängt die Pivot-Statistik zur Berechnung des Intervalls ab.
Beispiel für Konfidenzintervall für den Mittelwert unter Annahme von Normalität und bekannter Standardabweichung
Die für die Berechnung verwendete Pivot-Statistik wäre die folgende:
Das resultierende Intervall wäre das folgende:
Wir sehen, dass wir im Intervall links und rechts von der Ungleichung die untere bzw. obere Schranke haben. Daher sagt uns der Ausdruck, dass die Wahrscheinlichkeit, dass der Mittelwert der Grundgesamtheit zwischen diesen Werten liegt, 1-alpha (Konfidenzniveau) beträgt.
Schauen wir uns das Obige mit einer als Beispiel gelösten Übung genauer an.
Sie möchten die durchschnittliche Zeit schätzen, die ein Läufer für einen Marathon benötigt. Dafür wurden 10 Marathons gemessen und ein Durchschnitt von 4 Stunden mit einer Standardabweichung von 33 Minuten (0,55 Stunden) ermittelt. Sie möchten ein Konfidenzintervall von 95 % erhalten.
Um das Intervall zu erhalten, müssten wir nur die Daten in der Intervallformel ersetzen.
Das Konfidenzintervall wäre der blau schattierte Teil der Verteilung. Die 2 hierdurch begrenzten Werte wären die, die den 2 roten Linien entsprechen. Die Mittellinie, die die Verteilung in 2 teilt, wäre der wahre Bevölkerungswert.
Es ist wichtig zu beachten, dass wir in diesem Fall, da die Dichtefunktion der Verteilung N (0,1) die kumulative Wahrscheinlichkeit (von links bis zum kritischen Wert) angibt, den Wert finden müssen, der uns 0,975 auf75 der linke % (dies ist 1,96).