Eine statistische Stichprobe ist eine Teilmenge von Daten, die zu einer Datenpopulation gehören. Statistisch gesehen muss es sich aus einer bestimmten Anzahl von Beobachtungen zusammensetzen, die die Gesamtdaten angemessen repräsentieren.
Die Statistik als Teilgebiet der Mathematik ist dafür verantwortlich, Daten zu sammeln, zu ordnen und zu analysieren. Mit anderen Worten, wenn wir ein bestimmtes Phänomen untersuchen wollen, wenden wir uns der Statistik zu. Ein gutes Beispiel für ein statistisch untersuchtes Phänomen ist das Durchschnittseinkommen der Bürger eines Landes
In diesem Sinne können wir aus Zeit- und Kostengründen nicht alle Daten erheben. Diese Gesamtheit von Daten wird als Datenpopulation oder einfach als Population bezeichnet.
Warum arbeiten Sie mit statistischen Stichproben?
Um zu erklären, warum anstelle der Gesamtbevölkerung eine statistische Stichprobe verwendet wird, greifen wir auf das oben genannte Beispiel zurück.
Angenommen, wir möchten ein beliebiges Phänomen untersuchen. In unserem Fall ist dieses Phänomen das durchschnittliche Gehalt der Bürger eines Landes. Die Datenpopulation besteht aus jedem einzelnen Arbeitnehmer des Landes. Aus Zeit- und Kostengründen wäre es natürlich unmöglich, jeden Arbeitnehmer nach seinem Jahresgehalt zu fragen. Es würde lange dauern oder wir würden viele Ressourcen brauchen.
An dieser Stelle taucht das Konzept der statistischen Stichprobe auf. Anstatt Millionen von Arbeitnehmern in einem Land oder einer Region zu befragen, sammeln wir nur eine kleine Menge an Daten. Wir haben zum Beispiel 100.000 Menschen befragt. Diese Aufgabe ist immer noch kompliziert, aber es ist viel günstiger, 100.000 Menschen zu befragen als 30 Millionen.
Diese kleine Datenmenge muss repräsentativ sein. Das heißt, sie muss die Bevölkerung angemessen repräsentieren. Wenn sich die von uns befragten 100.000 Menschen in wohlhabenden Vierteln konzentrieren, erhalten wir Daten, die nicht repräsentativ sind. Das durchschnittliche Gehalt wäre viel höher als es wirklich ist.
Merkmale einer repräsentativen statistischen Stichprobe
Wenn Sie gut recherchieren wollen, ist die Qualität der statistischen Stichprobe entscheidend. Es ist nutzlos, die komplexesten statistischen Metriken mit den ausgefeiltesten Modellen durchzuführen, wenn die statistische Stichprobe verzerrt ist. Das heißt, wenn die Stichprobe nicht repräsentativ ist.
Bei der Gewinnung einer repräsentativen Stichprobe gibt es bestimmte Aspekte, die der Forscher vorab kennen muss. Zu diesen Aspekten zählen die Merkmale einer repräsentativen Stichprobe. Die Merkmale einer repräsentativen Stichprobe sind wie folgt:
- Groß genug größe: Wenn wir mit Stichproben arbeiten, arbeiten wir normalerweise mit einer Datenmenge, die kleiner ist als die Grundgesamtheit. Damit eine statistische Stichprobe jedoch repräsentativ ist, muss sie groß genug sein, um als repräsentativ angesehen zu werden. Wenn unsere Population beispielsweise aus 10 Millionen Daten besteht und wir 10 auswählen, ist es schwierig, repräsentativ zu sein. Natürlich ist eine größere Stichprobe nicht immer repräsentativer.
- Zufall: Die Auswahl der Daten aus einer statistischen Stichprobe muss zufällig sein. Das heißt, es muss völlig zufällig sein. Wenn wir statt stichprobenartig einen geplanten Datenauswahlprozess durchführen, führen wir einen Bias in die Datenerhebung ein. Um zu vermeiden, dass die Stichprobe verzerrt ist und damit eine repräsentative Stichprobe entsteht, müssen wir daher eine zufällige Auswahl treffen.
Statistische Inferenz
Sobald wir die repräsentative Stichprobe erhalten haben, ist es notwendig, bestimmte Metriken abzuleiten. Oft sind wir daran interessiert, ein bestimmtes Maß einer Variablen zu kennen. Im ersten Beispiel wäre die Variable das Gehalt der Bürger eines Landes. In diesem Sinne ist die Metrik, die wir analysieren möchten, das durchschnittliche Gehalt der Bürger eines Landes.
Mit anderen Worten, wir haben eine Datenpopulation, die sich aus allen Arbeitnehmern in Mexiko zusammensetzt. Aus dieser Grundgesamtheit erhalten wir eine Variable, also das Jahresgehalt. Mit den entsprechenden Techniken erhalten wir eine repräsentative Probe. Und schließlich, sobald wir einen Datensatz haben, mit dem wir arbeiten können, verwenden wir statistische Inferenztechniken, um das Durchschnittsgehalt zu berechnen.
Sobald wir den Datensatz haben, können wir natürlich andere Maßnahmen ableiten. Zum Beispiel, wie das Gehalt verteilt wird, wie viel Prozent der Arbeiter ein bestimmtes Gehalt unterschreiten oder wie groß die Gehaltslücke ist.
Statistisches Beispielbeispiel
Angenommen, wir wollen eine Studie über die durchschnittlichen Ausgaben kolumbianischer Familien im Monat Januar durchführen. Dafür haben wir zwei Möglichkeiten:
- Geben Sie die Bankkonten aller Familien in Kolumbien ein
- Fragen Sie eine repräsentative Anzahl von Personen
Die erste Option ist aus mehreren Gründen nicht praktikabel. Erstens, dass die Familien ihre Daten nicht preisgeben und zweitens, dass wir uns auch nicht Familie für Familie die Daten ansehen konnten. Vor allem, weil Kolumbien fast 50 Millionen Einwohner hat. In der Zwischenzeit besteht die zweite Möglichkeit, eine statistische Stichprobe zu erheben.
Wir werden, den oben genannten Merkmalen folgend, 100.000 Familien befragen. Es ist etwas kompliziert, aber viel einfacher, als 50 Millionen Kolumbianer zu fragen. Der Unterschied ist beträchtlich. Ausgehend von dieser Stichprobe von 100.000 Familien werden wir daher versuchen, die durchschnittlichen Ausgaben der Familien im Januar zu berechnen.
Die extrahierten Daten werden gemäß einer Reihe von Metriken, die bei statistischen Untersuchungen berücksichtigt werden, mehr oder weniger zuverlässig sein. Natürlich sind diese Arten von Metriken fortgeschrittener und werden daher hier nicht erörtert.