Test Q

Il test Q o test di Dixon (Q test in inglese) è un semplice test statistico non parametrico utilizzato per valutare se scartare o meno dati ritenuti outlier.

Per effettuare il test Q al fine di individuare i dati errati, si devono disporre i dati in ordine di valore crescente, e quindi per ognuno calcolare il coefficiente Q n , {\displaystyle Q_{n},} definito come:

Q n = | x n x n 1 | | R | , {\displaystyle Q_{n}={\frac {|x_{n}-x_{n-1}|}{|R|}},}

dove R = max j ( x j ) min j ( x j ) {\displaystyle R=\max _{j}(x_{j})-\min _{j}(x_{j})} è l'ampiezza dell'intervallo contenente tutti i valori osservati.

Sia Q = max n ( Q n ) . {\displaystyle Q=\max _{n}(Q_{n}).} Si confronta Q n {\displaystyle Q_{n}} con Q tabella , {\displaystyle Q_{\text{tabella}},} dove Q tabella {\displaystyle Q_{\text{tabella}}} è un valore di riferimento ottenuto a partire dall'ampiezza del campione e dal livello di confidenza (alcuni esempi sono riportati di seguito). Se Q n > Q tabella , {\displaystyle Q_{n}>Q_{\text{tabella}},} allora si può scartare il valore, con affidabilità pari alla percentuale riportata.

Importante: con il test Q può essere eliminato al massimo un solo valore per insieme di dati se si vuole preservare l'integrità statistica dei dati.

Valori di Qtabella

Numero di dati: 3 4 5 6 7 8 9 10
Q90%: 0,941 0,765 0,642 0,560 0,507 0,468 0,437 0,412
Q95%: 0,970 0,829 0,710 0,625 0,568 0,526 0,493 0,466
Q99%: 0,994 0,926 0,821 0,740 0,680 0,634 0,598 0,568

Esempio di applicazione

Consideriamo i dati seguenti:

0,189; 0,169; 0,187; 0,183; 0,186; 0,182; 0,181; 0,184; 0,181; 0,177.

Dopo averli ordinati in ordine crescente, si calcoli per ognuno la differenza tra i valori successivi:

0,169 0,177 0,181 0,181 0,182 0,183 0,184 0,186 0,187 0,189
--- 0,008 0,004 0,000 0,001 0,001 0,001 0,002 0,001 0,002

Il valore che più si discosta dagli altri è 0,169. Allora:

Q = ( 0 , 177 0 , 169 ) ( 0 , 189 0 , 169 ) 0 , 40. {\displaystyle Q={\frac {(0,177-0,169)}{(0,189-0,169)}}\simeq 0,40.}

Con 10 dati, Q {\displaystyle Q} è minore sia di Q90% sia di Q95% (riportati in tabella). Possiamo quindi mantenere 0,169 sia se vogliamo il 90% di affidabilità, sia al 95%. Esiste dunque una probabilità superiore al 10%, che quel dato appartenga alla stessa popolazione degli altri nove valori.

Bibliografia

  • R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of Observations". Anal. Chem., 1951

Voci correlate

  • Wilfrid Dixon, coautore del test
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica