Quantil-Quantil-Diagramm

Ein Quantil-Quantil-Diagramm, kurz Q-Q-Diagramm (englisch quantile-quantile plot, kurz Q-Q-Plot) ist ein exploratives, grafisches Werkzeug, in dem die Quantile zweier statistischer Variablen gegeneinander in einem parametrischen Plot aufgetragen werden, um ihre Verteilungen zu vergleichen.

Ein P-P-Diagramm bzw. Probability-Probability-Plot ist ein exploratives, grafisches Werkzeug, in dem die Verteilungsfunktionen zweier statistischer Variablen gegeneinander abgetragen werden, um ihre Verteilungen zu vergleichen.

Q-Q-Diagramm

Vergleich der Verteilung zweier statistischer Merkmale

Die Beobachtungswerte zweier Merkmale, deren Verteilung man vergleichen will, werden jeweils der Größe nach geordnet. Diese geordneten Daten werden zu Wertepaaren zusammengefasst und in einem Koordinatensystem abgetragen. Das Sortieren und Bilden der Wertepaare impliziert, dass die Wertepaare ursprünglich nicht zusammengehörten. Deshalb kann die Grafik nur eine Aussage über die Verteilung der Merkmale machen, aber nicht über einen eventuellen Zusammenhang (Korrelation). Ergeben die Punkte (annähernd) eine Gerade, kann man vermuten, dass den beiden Merkmalen die gleiche Verteilung zu Grunde liegt. Problematisch ist das Verfahren, wenn von den beiden Merkmalen unterschiedlich viele Beobachtungen vorliegen. Hier kann mit Interpolationsverfahren abgeholfen werden.

Angegeben ist hier ein Beispiel für ca. 110 Kriegsschiffe bei Ausbruch des Zweiten Weltkriegs. Erhoben wurden die Variablen Länge und Breite. Das Streudiagramm zeigt, dass es offensichtlich zwei unterschiedliche Gruppen gibt, die sich deutlich als Cluster abheben. Für das Quantil-Quantil-Diagramm wurden die Daten standardisiert, um die Vergleichbarkeit zu erleichtern. Man sieht an der Lücke in der Punktkurve das Zerfallen der Daten in zwei Cluster. Für den Cluster unten links scheint der Typ der Verteilung für beide Variablen gleich zu sein. Für den zweiten Cluster oben rechts ist die Breite im Vergleich zum ersten Cluster tendenziell größer. Die „Ausbeulung“ des Plots zeigt, dass hier die Verteilungen von Länge und Breite ungleich sind.

Streudiagramm der Variablen Länge und Breite
Q-Q-Diagramm der Variablen Länge und Breite

Überprüfung der Verteilung eines Merkmals

Q-Q-Diagramm mit großen Abweichungen zwischen den Verteilungen
Q-Q-Diagramm der Breite von Kriegsschiffen verglichen mit der Normalverteilung
Trendbereinigtes Q-Q-Diagramm der Breite von Kriegsschiffen verglichen mit der Normalverteilung

Die Beobachtungswerte eines Merkmals werden der Größe nach geordnet. Als Vergleich dienen die Quantile der theoretischen Verteilung, die dem entsprechenden Verteilungswert zugehören.[1] Wenn die Merkmalswerte aus der Vergleichsverteilung stammen, stimmen die empirischen und die theoretischen Quantile annähernd überein. In einem parametrischen Plot der p-Quantile und der empirischen p-Quantile liegen die so gepaarten Daten annähernd auf einer Diagonalen (und es liegt ein hoher Rangkorrelationskoeffizient vor).

Große systematische Abweichungen von dieser Diagonalen geben einen Hinweis darauf, dass sich die theoretische und empirische Verteilung voneinander unterscheiden. Das Quantil-Quantil-Diagramm kann jedoch keinen Verteilungstest ersetzen.

Formale Definition

Zu jeder der n {\displaystyle n} Beobachtungen x i {\displaystyle x_{i}} wird ein empirischer Unterschreitungsanteil p i = F empirisch ( x i ) {\displaystyle p_{i}=F_{\text{empirisch}}(x_{i})} bestimmt. Mit Hilfe der inversen Verteilungsfunktion (oder Quantilfunktion) der theoretischen Verteilung wird das Quantil

y i = F theoretisch 1 ( p i ) {\displaystyle y_{i}=F_{\text{theoretisch}}^{-1}(p_{i})}

berechnet. Geplottet wird nun x i {\displaystyle x_{i}} versus y i {\displaystyle y_{i}} .

Die Berechnung des Unterschreitungsanteils p i {\displaystyle p_{i}} erfolgt mit Hilfe des Rangs R ( x i ) {\displaystyle R(x_{i})} der Beobachtung x i {\displaystyle x_{i}} :

Methode Formel für p i {\displaystyle p_{i}} p i {\displaystyle p_{i}} für
R ( x i ) = 1 {\displaystyle R(x_{i})=1} R ( x i ) = n {\displaystyle R(x_{i})=n}
Blom R ( x i ) 3 / 8 n + 1 / 4 {\displaystyle {\frac {R(x_{i})-3/8}{n+1/4}}} 5 8 n + 2 {\displaystyle {\frac {5}{8n+2}}} 8 n 3 8 n + 2 {\displaystyle {\frac {8n-3}{8n+2}}}
Rankit R ( x i ) 1 / 2 n {\displaystyle {\frac {R(x_{i})-1/2}{n}}} 1 2 n {\displaystyle {\frac {1}{2n}}} 2 n 1 2 n {\displaystyle {\frac {2n-1}{2n}}}
Tukey R ( x i ) 1 / 3 n + 1 / 3 {\displaystyle {\frac {R(x_{i})-1/3}{n+1/3}}} 2 3 n + 1 {\displaystyle {\frac {2}{3n+1}}} 3 n 1 3 n + 1 {\displaystyle {\frac {3n-1}{3n+1}}}
Van der Waerden R ( x i ) n + 1 {\displaystyle {\frac {R(x_{i})}{n+1}}} 1 n + 1 {\displaystyle {\frac {1}{n+1}}} n n + 1 {\displaystyle {\frac {n}{n+1}}}

Trendbereinigtes Q-Q-Diagramm

Im trendbereinigten Quantil-Quantil-Diagramm werden statt ( x i , y i ) {\displaystyle (x_{i},y_{i})} die Punkte ( x i , x i y i ) {\displaystyle (x_{i},x_{i}-y_{i})} geplottet. Stimmen die empirische und die theoretische Verteilung überein, so liegen alle Punkte auf ( x i , 0 ) {\displaystyle (x_{i},0)} . Die Abweichungen x i y i {\displaystyle x_{i}-y_{i}} kommen nur von den Unterschieden zwischen der theoretischen und empirischen Verteilung. Im Quantil-Quantil-Plot gehen die Punkte im Diagramm immer von links unten nach rechts oben, d. h. Abweichungen zwischen der theoretischen und empirischen Verteilung werden hier im Verhältnis zum Wertebereich der theoretischen und empirischen Verteilung dargestellt. Das trendbereinigte Q-Q-Diagramm bietet also eine bessere Ansicht bezüglich der Struktur der Abweichungen als das Q-Q-Diagramm.

P-P-Diagramm

P-P-Diagramm der Breite von Kriegsschiffen verglichen mit der Normalverteilung
Trendbereinigtes P-P-Diagramm der Breite von Kriegsschiffen verglichen mit der Normalverteilung

Überprüfung der Verteilung eines Merkmals

Für die Beobachtungswerte werden die Unterschreitungsanteile p i {\displaystyle p_{i}} nach Blom etc. berechnet. Für die zu vergleichende Verteilung werden die Beobachtungswerte in die kumulierte theoretische Verteilungsfunktion eingesetzt. So erhält man den theoretischen Unterschreitungsanteil t i = F theoretisch ( x i ) {\displaystyle t_{i}=F_{\text{theoretisch}}(x_{i})} . Wenn die Merkmalswerte aus der Vergleichsverteilung stammen, stimmen die Werte von p i {\displaystyle p_{i}} und t i {\displaystyle t_{i}} annähernd überein, d. h. die Werte liegen auf einer Diagonalen.

Im Gegensatz zum Q-Q-Diagramm haben die Ränder der Verteilung beim P-P-Diagramm einen geringeren visuellen Einfluss. Der Probability-Probability-Plot kann jedoch nicht einen Verteilungstest ersetzen.

Trendbereinigtes P-P-Diagramm

Im trendbereinigten Probability-Probability-Plot werden statt ( p i , t i ) {\displaystyle (p_{i},t_{i})} die Punkte ( p i , p i t i ) {\displaystyle (p_{i},p_{i}-t_{i})} geplottet. Stimmen die empirische und die theoretische Verteilung überein, so liegen alle Punkte auf ( p i , 0 ) {\displaystyle (p_{i},0)} . Wie beim trendbereinigten Q-Q-Diagramm bietet diese Grafik eine bessere Übersicht über die Abweichungen.

Anwendungsbeispiele

  • Vergleich einer empirischen Häufigkeitsverteilung mit einer theoretischen bzw. hypothetischen Verteilung:
    • Grafische Inspektion von Regressionsresiduen auf Normalverteilung
    • Optische Prüfung von Verteilungsvoraussetzungen vor der Durchführung eines parametrischen Testverfahrens

Literatur

  • Hartung, Joachim, Elpelt, Bärbel, Klösener, Karl-Heinz: Statistik. München 2002
  • J. M. Chambers, W. S. Cleveland, Beat Kleiner, Paul A. Tukey: Graphical Methods for Data Analysis. Wadsworth, 1983.

Einzelnachweise

  1. Peter P. Eckstein: Angewandte Statistik mit SPSS, S. 97