Bestimmtheitsmaß (R zum Quadrat)

Inhaltsverzeichnis:

Bestimmtheitsmaß (R zum Quadrat)
Bestimmtheitsmaß (R zum Quadrat)
Anonim

Das Bestimmtheitsmaß ist der Anteil der Gesamtvarianz der Variablen, der durch die Regression erklärt wird. Das Bestimmtheitsmaß, auch R-Quadrat genannt, spiegelt die Anpassungsgüte eines Modells an die zu erklärende Variable wider.

Es ist wichtig zu wissen, dass das Ergebnis des Bestimmtheitsmaßes zwischen 0 und 1 schwankt. Je näher sein Wert an 1 liegt, desto besser passt das Modell an die zu erklärende Variable. Umgekehrt gilt: Je näher an Null, desto weniger eng ist das Modell und desto weniger zuverlässig ist es.

Im vorherigen Ausdruck haben wir einen Bruch. Gehen wir also nach Teilen vor. Zuerst analysieren wir den Zähler, also den oberen Teil.

Für diejenigen, die den Varianzausdruck nicht kennen, empfehle ich Ihnen, den Artikel darüber zu lesen. Diejenigen, die es kennen, werden vielleicht erkennen, dass es der Ausdruck der Varianz ist, aber mit zwei grundlegenden Unterschieden.

Der erste Unterschied besteht darin, dass das Y einen Zirkumflex hat oder was Lehrer didaktisch einen „Hut“ nennen. Das Detail ist, dass Y die Schätzung eines Modells dessen ist, was gemäß den erklärenden Variablen Y wert ist, aber es ist nicht der reale Wert von Y, sondern eine Schätzung von Y.

Zweitens wäre es notwendig, durch T zu dividieren, was in anderen Fällen als N oder Anzahl der Beobachtungen notiert wird. Da die Nennerformel es jedoch auch tragen würde, entfernen wir die Nenner (unten) aus beiden Formeln, um den Ausdruck zu vereinfachen. Auf diese Weise ist es einfacher, damit zu arbeiten.

Als nächstes führen wir die gleiche Analyse mit dem Nennerteil (unterer Teil) durch.

In diesem Fall besteht der einzige Unterschied zur ursprünglichen Varianzformel darin, dass ihr Nenner fehlt. Das heißt, wir teilen nicht durch T oder N. Auf diese Weise werden wir, nachdem die beiden Teile des generischen Ausdrucks des R-Quadrats oder des Bestimmtheitskoeffizienten erklärt wurden, ein Beispiel sehen.

VariationskoeffizientLinearer KorrelationskoeffizientRegressionsanalyse

Interpretation des Bestimmtheitsmaßes

Angenommen, wir möchten die Anzahl der Tore, die Cristiano Ronaldo erzielt, anhand der Anzahl seiner Spiele erklären. Wir gehen davon aus, dass er umso mehr Tore schießt, je mehr Spiele gespielt werden. Die Daten beziehen sich auf die letzten 8 Saisons. Somit liefert das Modell nach dem Extrahieren der Daten die folgende Schätzung:

Wie wir aus der Grafik sehen können, ist die Beziehung positiv. Je mehr Spiele gespielt werden, desto mehr Tore schießt er natürlich in der Saison. Die Anpassung, basierend auf der R-Quadrat-Berechnung, beträgt 0,835. Dies bedeutet, dass es sich um ein Modell handelt, dessen Schätzungen recht gut zu der realen Variablen passen. Obwohl es technisch nicht korrekt wäre, könnte man sagen, dass das Modell 83,5% der realen Variablen erklärt.

Das Bestimmungskoeffizientenproblem

Das Problem des Bestimmtheitsmaßes und der Grund für das bereinigte Bestimmtheitsmaß besteht darin, dass es die Einbeziehung nicht signifikanter erklärender Variablen nicht benachteiligt. Das heißt, wenn dem Modell fünf erklärende Variablen hinzugefügt werden, die wenig Bezug zu den Toren haben, die Cristiano Ronaldo in einer Saison erzielt, steigt das R im Quadrat. Aus diesem Grund lehnen viele Ökonometrie-, Statistik- und Mathematikexperten die Verwendung von R zum Quadrat als repräsentatives Maß für die Güte der reellen Anpassung ab.

Das angepasste Bestimmtheitsmaß

Das adjustierte Bestimmtheitsmaß (angepasstes R-Quadrat) ist das Maß, das den durch die Varianz der Regression erklärten Prozentsatz im Verhältnis zur Varianz der erklärten Variablen definiert. Das heißt, das gleiche wie das R zum Quadrat, aber mit einem Unterschied: Das angepasste Bestimmtheitsmaß bestraft die Einbeziehung von Variablen.

Wie bereits erwähnt, erhöht sich das Bestimmtheitsmaß eines Modells auch dann, wenn die Variablen, die wir einschließen, nicht relevant sind. Da dies ein Problem ist, ist das angepasste R-Quadrat so, dass:

In der Formel ist N der Stichprobenumfang und k die Anzahl der erklärenden Variablen. Durch mathematische Ableitung ist das angepasste R-Quadrat umso weiter vom normalen R-Quadrat entfernt, je höher die Werte von k sind. Umgekehrt wird bei niedrigeren Werten von k der mittlere Bruch näher an 1 liegen und daher werden das angepasste R zum Quadrat und das normale R zum Quadrat ähnlicher.

Wenn wir uns daran erinnern, dass k die Anzahl der erklärenden Variablen ist, folgern wir, dass diese nicht null sein kann. Wenn es null wäre, gäbe es kein Modell. Zumindest müssen wir eine Variable durch eine andere Variable erklären. Da k mindestens 1 sein muss, können das angepasste R-Quadrat und das normale R-Quadrat nicht denselben Wert haben. Außerdem ist das angepasste R-Quadrat immer kleiner als das normale R-Quadrat.