Glossar

Bestimmtheitsmaß

Das Bestimmtheitsmaß bewertet die Güte der Anpassung einer Regressionsgleichung.

Ein Problem der Regressionsanalyse liegt in der Verlässlichkeit der Schätzung. Meistens weicht der anhand der Regressionsgleichung aus dem Messwert $ x_i $ berechnete Wert $ \hat{y_i} $ mehr oder weniger stark vom beobachteten Wert $ y_i $ ab. Daraus ergibt sich das Residuum als Differenz: $\epsilon = y_i - \hat{y_i}$

Um die berechnete Regressionsgerade anhand aller Residuen zu bewerten, wird die Summe aus allen Abweichungsquadraten $\epsilon_i^2$ herangezogen (damit sich die Differenzen nicht bei unterschiedlichen Vorzeichen wieder gegeneinander aufheben, benutzt man die Quadrate der Abweichungen).

Die Gesamtvarianz lässt sich damit wie folgt zerlegen:

$$ \frac{\sum_{i=1}^n{(y_i-\bar{y})^2}}{n-1} = \frac{\sum_{i=1}^n{(y_i-\hat{y_i})^2}}{n-1} + \frac{\sum_{i=1}^n{(\hat{y_i}-\bar{y})^2}}{n-1}$$

in Worten bedeutet dies:

Gesamtvarianz der Beobachtungswerte $ y_i $

$ = $ Varianz der Residuen $\epsilon_i$ (Residualvarianz) $ + $ Varianz der $ \hat{y_i} $ aus Regressionsgleichung

oder noch einfacher:

Gesamtvarianz $ = $ nicht erklärte Varianz $ + $ durch Regression erklärte Varianz

Wenn also die Residualvarianz klein und die erklärte Varianz entsprechend groß ist, ist die Schätzung durch die Regressionsgerade besonders gut. Daraus folgert man ein Bewertungskriterium für die Güte der Anpassung des Zusammenhangs (der Vorhersagemöglichkeit) anhand der ermittelten Regressionsgleichung, indem man das Verhältnis der erklärten Varianz zur Gesamtvarianz betrachtet:

$$ r^2 = \frac{s_{\hat{y}}^2}{s_y^2} = \frac{\sum_{i=1}^n{(\hat{y_i}-\bar{y})^2}}{\sum_{i=1}^n{(y_i-\bar{y})^2}} = \frac{erklärte Varianz}{Gesamtvarianz}$$

$ r^2 $ ist das Bestimmtheitsmaß oder auch Determinationskoeffizient und liegt zwischen $ 0 $ und $ 1 $.

Ist $ r^2=1 $ so ist die Residualvarianz $ = 0 $.

Beispiel:

Ist $r=0,6324$ so ist $r^2 \thickapprox 0,4$, woraus gefolgert werden kann, dass 40% der Gesamtvarianz durch das Regressionsmodell erklärt wird (vorhergesagt werden kann), die verbleibenden 60% sind durch andere, nicht im Modell berücksichtigte Einflüsse verursacht.

Anmerkung:

$ \sqrt{r^2} = r $ ist der Korrelationskoeffizient nach Pearson.

Zurück zur Übersicht

Referenzen

Hier finden Sie einen Auszug unserer bisherigen Projekte und Auftraggeber

Zum Glossar

Hier finden Sie Erläuterungen zu diversen biostatistischen Fachbegriffen