Teste de Wilcoxon

Estatística
  • v
  • d
  • e

O teste de Wilcoxon ou teste dos postos sinalizados de Wilcoxon é um teste de hipóteses não paramétrico utilizado quando se deseja comparar duas amostras emparelhadas, amostras relacionadas ou medidas repetidas em uma única amostra para avaliar se os postos médios populacionais diferem (i.e. é um teste de diferenças pareadas). Pode ser usado como uma alternativa ao teste t de Student, teste t para pares correspondentes ou o teste t para amostras dependentes quando não se pode assumir que a população é normalmente distribuída.[1] Um teste dos postos sinalizados de Wilcoxon é um teste não paramétrico que pode ser usado para determinar se duas amostras dependentes foram selecionadas a partir de populações que têm uma distribuição com forma semelhante.

História

O teste é nomeado para Frank Wilcoxon (1892-1965), que em um único artigo propôs o teste de soma dos postos para duas amostras independentes (Wilcoxon, 1945).[2] O teste foi popularizado por Sidney Siegel (1956) em seu influente livro sobre estatística não-paramétrica.[3] Siegel usou o símbolo T {\displaystyle T} para um valor relacionado, mas não igual a  W {\displaystyle W} . Em consequência, o teste é, por vezes, referido como o teste T de Wilcoxon e o teste estatístico é relatado como um valor de T {\displaystyle T} .

Pressupostos

  1. Os dados são pareados (emparelhados) e provêm da mesma população;
  2. Cada par é escolhido aleatoriamente e de forma independente;
  3. Os dados são medidos pelo menos em uma escala ordinal (i.e., eles não podem ser nominais).

Procedimentos do teste

Seja  N {\displaystyle N}  o tamanho da amostra, i.e., o número de pares. Assim, há um total de 2 N {\displaystyle 2N} pontos de dados. Para os pares i = 1 , . . . , N {\displaystyle i=1,...,N} , x 1 , i {\displaystyle x_{1,i}} e x 2 , i {\displaystyle x_{2,i}} indicam as medidas.

H 0 {\displaystyle H_{0}} : A diferença entre os pares segue uma distribuição simétrica em torno de zero;
H 1 {\displaystyle H_{1}} : A diferença entre os pares não segue uma distribuição simétrica em torno de zero.
  1. Para  i = 1 , . . . , N {\displaystyle i=1,...,N} , calcule  | x 2 , i x 1 , i | {\displaystyle |x_{2,i}-x_{1,i}|}  e sgn ( x 2 , i x 1 , i ) {\displaystyle \operatorname {sgn}(x_{2,i}-x_{1,i})} , onde sgn {\displaystyle \operatorname {sgn} }  é a função sinal.
  2. Exclua os pares com | x 2 , i x 1 , i | = 0 {\displaystyle |x_{2,i}-x_{1,i}|=0} . Seja  N r {\displaystyle N_{r}}  o tamanho da amostra reduzida.
  3. Ordene os N r {\displaystyle N_{r}}  pares remanescentes da menor diferença absoluta para a maior diferença absoluta, | x 2 , i x 1 , i | {\displaystyle |x_{2,i}-x_{1,i}|} .
  4. Atribua postos aos pares, começando com o menor como 1. Valores repetidos recebem um posto igual a média dos postos que eles abrangem. Seja  R i {\displaystyle R_{i}}  denotando o posto do par i.
  5. Calcule o teste estatístico  W {\displaystyle W}
    W = i = 1 N r [ sgn ( x 2 , i x 1 , i ) R i ] {\displaystyle W=\sum _{i=1}^{N_{r}}[\operatorname {sgn}(x_{2,i}-x_{1,i})\cdot R_{i}]} , a soma dos postos sinalizados.
  6. Sob a hipótese nula, W {\displaystyle W}  segue uma distribuição específica sem uma expressão simples. Esta distribuição tem um valor esperado valor esperado de 0 e uma variância de  N r ( N r + 1 ) ( 2 N r + 1 ) 6 {\displaystyle {\frac {N_{r}(N_{r}+1)(2N_{r}+1)}{6}}} .
    W {\displaystyle W}  pode ser comparado com um valor crítico da tabela de referência.[1]
    O teste bicaudal consiste em rejeitar H 0 {\displaystyle H_{0}}  se  | W | > W crítico , N r {\displaystyle |W|>W_{{\text{crítico}},N_{r}}} .
  7. Conforme N r {\displaystyle N_{r}}  aumenta, a distribuição amostral de  W {\displaystyle W} converge a uma distribuição normal. Portanto, 
    Para  N r 10 {\displaystyle N_{r}\geq 10} , um valor-z pode ser calculado como  z = W σ W , σ W = N r ( N r + 1 ) ( 2 N r + 1 ) 6 {\displaystyle z={\frac {W}{\sigma _{W}}},\sigma _{W}={\sqrt {\frac {N_{r}(N_{r}+1)(2N_{r}+1)}{6}}}} .
    Em um teste bicaudal, rejeita-se  H 0 {\displaystyle H_{0}}  se  | z | > z crítico {\displaystyle |z|>z_{\text{crítico}}} .
    Alternativamente, testes monocaudais podem ser feitos tanto com a distribuição exata quanto com a aproximada. p-valores também podem ser calculados.

Teste Original

A proposta original de Wilcoxon utilizava uma estatística diferente. Denotado por Siegel como a estatística T {\displaystyle T} , é a menor das duas somas de postos de sinal dado; no exemplo dado abaixo, portanto, T {\displaystyle T} será igual a 3 + 4 + 5 + 6 = 18 {\displaystyle 3+4+5+6=18} . Valores baixos de T {\displaystyle T} são necessários para a significância. Como será óbvio a partir do exemplo abaixo, T {\displaystyle T} é mais fácil de calcular a mão do que W {\displaystyle W} e o teste é equivalente ao teste bicaudal descrito acima; no entanto, a distribuição da estatística sob H 0 {\displaystyle H_{0}} tem de ser ajustada.

Exemplo

i {\displaystyle i} x 2 , i {\displaystyle x_{2,i}} x 1 , i {\displaystyle x_{1,i}} x 2 , i x 1 , i {\displaystyle x_{2,i}-x_{1,i}}
sgn {\displaystyle \operatorname {sgn} } abs {\displaystyle {\text{abs}}}
1 125 110 1 15
2 115 122  –1 7
3 130 125 1 5
4 140 120 1 20
5 140 140 0
6 115 124  –1 9
7 140 123 1 17
8 125 137  –1 12
9 140 135 1 5
10 135 145  –1 10
ordene por diferenças absolutas
i {\displaystyle i} x 2 , i {\displaystyle x_{2,i}} x 1 , i {\displaystyle x_{1,i}} x 2 , i x 1 , i {\displaystyle x_{2,i}-x_{1,i}}
sgn {\displaystyle \operatorname {sgn} } abs {\displaystyle {\text{abs}}} R i {\displaystyle R_{i}} sgn R i {\displaystyle \operatorname {sgn} \cdot R_{i}}
5 140 140 0
3 130 125 1 5 1.5 1.5
9 140 135 1 5 1.5 1.5
2 115 122  –1 7 3  –3
6 115 124  –1 9 4  –4
10 135 145  –1 10 5  –5
8 125 137  –1 12 6  –6
1 125 110 1 15 7 7
7 140 123 1 17 8 8
4 140 120 1 20 9 9
sgn {\displaystyle \operatorname {sgn} } é a função sinal,  abs {\displaystyle {\text{abs}}} é o valor absoluto e R i {\displaystyle R_{i}} é o posto. Observe que os pares 3 e 9 são iguais em valor absoluto. Eles estariam classificados como 1 e 2, então cada um recebe a média desses postos, 1.5.
N r = 10 1 = 9 {\displaystyle N_{r}=10-1=9} , | W | = | 1.5 + 1.5 3 4 5 6 + 7 + 8 + 9 | = 9. {\displaystyle |W|=|1.5+1.5-3-4-5-6+7+8+9|=9.}
| W | > W α = 0.05 ,   9 , bicaudal = 6 {\displaystyle |W|>W_{\alpha =0.05,\ 9{\text{, bicaudal}}}=6}
{\displaystyle \therefore } Rejeita-se H 0 {\displaystyle H_{0}} .

Implementações

  • ALGLIB inclui a implementação do teste de Wilcoxon em C++, C#, Delphi, Visual Basic, etc;
  • O software estatístico livre R inclui uma implementação de teste como wilcox.test(x,y, paired=TRUE), onde x e y são vetores de mesmo comprimento;[4]
  • GNU Octave implementa várias versões mono e bicaudais do teste na função wilcoxon_test;
  • SciPy inclui uma implementação do teste de Wilcoxon em Python;
  • Acord.NET inclui uma implementação do teste de Wilcoxon em C# para aplicações .NET.

Veja também

  • Teste de Mann–Whitney-Wilcoxon (o teste variante para duas amostras independentes)
  • Teste de sinal (Como o teste de Wilcoxon, mas sem a suposição de distribuição simétrica das diferenças em torno da mediana, e sem usar a magnitude da diferença)

Referências

  1. a b Lowry, Richard. «Concepts & Applications of Inferential Statistics». Consultado em 19 de maio de 2017. Arquivado do original em 4 de junho de 2017 
  2. Wilcoxon, Frank (1945). «Individual comparisons by ranking methods» (PDF). Biometrics Bulletin. 1 (6): 80-83 
  3. Siegel, Sidney. Non-parametric statistics for the behavioral sciences. Nova Iorque: McGraw-Hill. pp. 75–83 
  4. Dalgaard, Peter (2008). Introductory Statistics with R. [S.l.]: Springer Science & Business Media. pp. 99–100. ISBN 978-0-387-79053-4 
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística