Teste do sinal

Estatística
  • v
  • d
  • e

O teste do sinal é um método estatístico para testar diferenças consistentes entre pares de observações, tal como o peso dos sujeitos antes e depois do tratamento. Dados os pares de observações (tal como peso pré e pós-tratamento) para cada sujeito, o teste do sinal determina se um membro do par (tal como o peso pré-tratamento) tende a ser maior do que (ou menor do que) o outro membro do par (tal como o peso pós-tratamento).

As observações pareadas podem ser designadas como x {\displaystyle x} e y {\displaystyle y} . Para comparações de observações pareadas ( x , y ) {\displaystyle (x,y)} , o teste do sinal é mais útil se as comparações puderem ser expressas apenas como x > y {\displaystyle x>y} , x = y {\displaystyle x=y} ou x < y {\displaystyle x<y} . Se, em vez disto, as observações puderem ser expressas como quantidades numéricas ( x = 7 {\displaystyle x=7} , y = 18 {\displaystyle y=18} ) ou como postos (posto de x = 1 {\displaystyle x=1} º, posto de y = 8 {\displaystyle y=8} º), então, o teste t de Student[1] pareado ou teste de postos sinalizados de Wilcoxon[2] geralmente serão mais adequados do que o teste do sinal para detectar diferenças consistentes.

Se X {\displaystyle X} e Y {\displaystyle Y} forem variáveis quantitativas, o teste do sinal pode ser usado para testar a hipótese de que a diferença entre X {\displaystyle X} e Y {\displaystyle Y} tem mediana zero, pressupondo distribuições contínuas das duas variáveis aleatórias X {\displaystyle X} e Y {\displaystyle Y} , na situação em que podemos obter amostras pareadas a partir de X {\displaystyle X} e Y {\displaystyle Y} .[3]

O teste do sinal também pode testar se a mediana de uma coleção de números é significantemente maior ou menor que um valor especificado. Por exemplo, dada uma ista de notas de alunos em uma sala, o teste do sinal pode determinar se a mediada das notas é significantemente diferentes de, por exemplo, 75 de 100.

O teste do sinal é um teste não paramétrico que faz poucas pressuposições sobre a natureza das distribuições sob o teste – isto significa que ele tem uma aplicabilidade muito generalizada, mas pode não ter a potência estatística de testes alternativos.

As duas condições para o teste do sinal de amostra pareada são que a amostra deve ser aleatoriamente selecionada a partir de cada população e que as amostras devem ser dependentes ou pareadas. Amostras independentes não podem ser significantemente pareadas. Já que o teste é não paramétrico, as amostras não precisam vir de populações normalmente distribuídas. Além disto, o teste funciona para testes com cauda à esquerda, cauda à direita e bicaudais.[4]

Método

Considere p = Pr ( X > Y ) {\displaystyle p=\Pr(X>Y)} e então teste a hipótese nula H 0 : p = 0 , 50 {\displaystyle H_{0}:p=0,50} . Em outras palavras, a hipótese nula afirma que, dado um par aleatório de medidas ( x i , y i {\displaystyle x_{i},y_{i}} ), é igualmente provável que x i {\displaystyle x_{i}} e y i {\displaystyle y_{i}} sejam uma maior que a outra.

Para testar a hipótese nula, os pares independentes de dados amostrais são coletados a partir das populações { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } {\displaystyle \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}} . Pares para os quais não há nenhuma diferença são omitidos de modo que haja a possibilidade de uma amostra reduzida de pares m {\displaystyle m} .

Então, considere W {\displaystyle W} . o número de pares para os quais y i x i > 0 {\displaystyle y_{i}-x_{i}>0} . Pressupondo que H 0 {\displaystyle H_{0}} é verdadeira, então, W {\displaystyle W} segue uma distribuição binomial W b ( m ; 0 , 5 ) {\displaystyle W\thicksim b(m;0,5)} .[5]

Pressupostos

Considere Z i = X i Y i {\displaystyle Z_{i}=X_{i}-Y_{i}} para i = 1 , . . . , n {\displaystyle i=1,...,n} .

  1. Pressupõe-se que as diferenças Z i {\displaystyle Z_{i}} são independentes.
  2. Cada Z i {\displaystyle Z_{i}} vem da mesma população contínua.
  3. Os valores que X i {\displaystyle X_{i}} e Y i {\displaystyle Y_{i}} representam são ordenados (pelo menos na escala ordinal), de modo que as comparações "maior que", "menor que" e "igual a" tenham sentido.[5]

Teste de significância

Já que se espera que a estatística do teste siga uma distribuição binomial, o teste binomial padrão é usado para calcular a significância. A aproximação normal à distribuição binomial pode ser usada para amostras grandes com m > 25 {\displaystyle m>25} .[6]

O valor da cauda à esquerda é computado por Pr ( W w ) {\displaystyle \Pr(W\leq w)} , que é o valor-p para a alternativa H 1 : p < 0 , 5 {\displaystyle H_{1}:p<0,5} . Esta alternativa significa que as medidas de X {\displaystyle X} tendem a ser maiores.

O valor da cauda à direita é computado por Pr ( W w ) {\displaystyle \Pr(W\geq w)} , que é o valor-p para a alternativa H 1 : p > 0 , 5 {\displaystyle H_{1}:p>0,5} . Esta alternativa significa que as medidas de Y {\displaystyle Y} tendem a ser maiores.

Para uma alternativa bicaudal H 1 {\displaystyle H_{1}} , o valor-p é o dobro do menor valor de cauda.

Exemplo de teste do sinal bilateral para pares emparelhados

Jerold H. Zar dá o seguindo exemplo de teste de sinal para pares emparelhados. Os dados coletados dizem respeito ao comprimento da pata esquerda traseira e da pata esquerda dianteira de 10 cervos.[7]

Cervo Comprimento da pata traseira (cm) Comprimento da pata dianteira (cm) Diferença
1 142 138 +
2 140 136 +
3 144 147
4 144 139 +
5 142 143
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

A hipótese nula é que não há diferença entre os comprimentos da pata traseira e da pata dianteira do cervo. A hipótese alternativa é que há uma diferença entre os comprimentos da pata traseira e da pata dianteira. Note que este é um teste bicaudal. Para o teste bicaudal. a hipótese alternativa é de que o comprimento da pata traseira pode ser maior ou menor do que pata dianteira. Um teste monocaudal poderia avaliar se o comprimento da pata traseira é maior do que o da pata dianteira, de modo que a diferença só pode ser em uma direção (maior que).

Há 10 cervos. Há 8 diferenças positivas e 2 diferenças negativas. Se a hipótese nula for verdadeira, ou seja, não houver diferença entre os comprimentos da pata traseira e da pata dianteira, então, o número esperado de diferenças positivas é 5 de 10. Qual é a probabilidade de que o resultado observado de 8 diferenças positivas ou um resultado mais extremo ocorra se não houver diferença nos comprimentos das patas?

Já que o teste é bilateral, um resultado igualmente ou mais extremo que 8 diferenças positivas inclui os resultados de 8, 9 ou 10 diferenças positivas e os resultados de 0, 1 ou 2 diferenças positivas. A probabilidade de 8 ou mais diferenças positivas entre 10 cervos ou 2 ou menos diferenças positivas entre 10 cervos é igual à probabilidade 8 ou mais caras ou 2 ou menos caras em dez jogos de cara ou coroa com uma moeda justa. As probabilidades podem ser calculadas usando o teste binomial, com a probabilidade de caras e de coroas iguais a 0,5.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 2 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 8 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.

A probabilidade bilateral de um resultado tão extremo quanto 8 de 10 diferenças positivas é a soma destas probabilidades:

0 , 00098 + 0 , 00977 + 0 , 04395 + 0 , 04395 + 0 , 00977 + 0 , 00098 = 0 , 109375. {\displaystyle 0,00098+0,00977+0,04395+0,04395+0,00977+0,00098=0,109375.}

Assim, a probabilidade de observar resultados tão extremos como 8 de 10 diferenças positivas nos comprimentos das patas, se não houver diferença nos comprimentos das patas, é p = 0 , 109375 {\displaystyle p=0,109375} . A hipótese nula não é rejeitada ao nível de significância de p = 0 , 05 {\displaystyle p=0,05} . Como uma amostra de tamanho maior, a evidência pode ser suficiente para rejeitar a hipótese nula.

Já que as observações podem ser expressas como quantidades numéricas (comprimento real da pata), o teste t pareado ou o teste de postos sinalizados de Wilcoxon terão geralmente maior potência do que o teste do sinal para detectar diferenças consistentes. Para este exemplo, o teste t pareado para diferenças indica que há uma diferença significante entre o comprimento da pata traseira e o comprimento da pata dianteira ( p = 0 , 007 {\displaystyle p=0,007} ).

Se o resultado observado fosse 9 diferenças positivas em 10 comparações, o teste do sinal pode ser significante. Apenas jogos de cara ou coroa com 0, 1, 9 ou 10 seriam igualmente ou mais extremos que o resultado observado.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00098.

A probabilidade de um resultado tão extremo quanto 9 ou 10 diferenças positivas é igual à soma destas probabilidades:

0 , 00098 + 0 , 00977 + 0 , 00977 + 0 , 00098 = 0 , 0215. {\displaystyle 0,00098+0,00977+0,00977+0,00098=0,0215.}

Em geral, 8 de 10 diferenças positivas não é significante ( p = 0 , 11 {\displaystyle p=0,11} ), mas 9 de 10 diferenças positivas é significante ( p = 0 , 0215 {\displaystyle p=0,0215} ).

Exemplo de teste do sinal unilateral para pares emparelhados

W. J. Conover dá o seguinte exemplo usando um teste do sinal unilateral para pares emparelhados.[8] Um fabricante faz dois produtos, A e B. O fabricante deseja saber se os consumidores preferem o produto B ao produto A. Em uma amostra de 10 consumidores, cada um recebe um produto A e um produto B e diz qual produto prefere.

A hipótese nula é que os consumidores não preferem o produto B ao produto A. A hipótese alternativa é que os consumidores preferem o produto B ao produto A. Note que este é um teste unilateral, ou seja, com uma única direção.

No fim do estudo, 8 consumidores preferiram o produto B, 1 consumidor preferiu o produto A e um consumidor disse não ter preferência.

  • Número de casos positivos (que preferiram B) = 8.
  • Número de casos negativos (que preferiram A) = 1.
  • Número de empates (nenhuma preferência) = 1.

O empate é excluído da análise, o que torna n {\displaystyle n} , o número de casos positivos e negativos, igual a 9,

Qual é a probabilidade de um resultado tão extremo quanto 8 positivos em favor de B em 9 pares, sendo que a hipótese nula diz que os consumidores não preferem B a A? Isto é igual à probabilidade 8 ou mais caras em 9 jogos de cara ou coroa com uma moeda justa e pode ser calculado usando a distribuição binomial com a probabilidade de caras e a probabilidade de coroas iguais a 0,5.

A probabilidade de 8 ou 9 caras em 9 jogos de cara ou coroa com uma moeda justa é igual a 0,0195. A hipótese nula é rejeitada e o operário conclui que os consumidores preferem o produto B ao produto A.

Exemplo de teste do sinal para mediana de uma única amostra

P. Sprent dá o seguinte exemplo de um teste do sinal para uma mediana.[9] Em um ensaio clínico, o tempo de sobrevivência (em semanas) é coletado para 10 sujeitos com linfoma não Hodgkin. O tempo de sobrevivência exato não é conhecido para um sujeito que ainda estava vivo 362 semanas depois, quando o estudo terminou. Os tempos de sobrevivência dos sujeitos foram:

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+.

O sinal de mais indica o sujeito ainda vivo no fim do estudo. O pesquisador desejava determina se a mediana do tempo de sobrevivência era menor ou maior que 200 semanas.

A hipótese nula é que a mediana da sobrevivência é igual a 200 semanas. A hipótese alternativa é que a mediana da sobrevivência não é 200 semanas. Nota que este é um teste bilateral: a hipótese alternativa é que a mediana pode ser maior ou menor que 200 semanas.

Se a hipótese nula for verdadeira, ou seja, a mediana da sobrevivência for igual a 200 semanas, então, em uma amostra aleatória, aproximadamente metade dos sujeitos deve sobreviver menos de 200 semanas e aproximadamente metade deve sobreviver mais de 200 semanas. Observações abaixo de 200 recebem um sinal de menos (-); observações acima de 200 recebem um sinal de mais (+). Para os tempos de sobrevivência dos sujeitos, há 7 observações abaixo de 200 semanas (-) e 3 observações acima de 200 semanas (+) para a amostra com 10 sujeitos.

Já que qualquer observação tem a mesma probabilidade de estar acima ou abaixo da mediana da população, o número de observações acima de 200 terá uma distribuição binomial com média igual a 0,5. Qual é a probabilidade de um resultado tão extremo quanto 7 em 10 sujeitos com tempos de sobrevivência abaixo da mediana? Isto é exatamente igual à probabilidade de um resultado tão extremo quanto 7 caras em 10 jogos de cara ou coroa com uma moeda justa. Já que este é um teste bilateral, um resultado extremo pode ser tanto três caras ou menos ou sete caras ou menos.

A probabilidade de observar k {\displaystyle k} caras em 10 jogos de cara ou coroa, sendo p ( c a r a s ) = 0 , 5 {\displaystyle p(caras)=0,5} é dada pela fórmula binomial:

Pr ( n u ´ m e r o   d e   c a r a s = k ) = ( 10 k ) × 0 , 5 10 {\displaystyle \Pr(n{\acute {u}}mero\ de\ caras=k)={\binom {10}{k}}\times 0,5^{10}}

A probabilidade para cada valor de k {\displaystyle k} é dada na tabela abaixo:

k {\displaystyle k} 0 1 2 3 4 5 6 7 8 9 10
Pr {\displaystyle \Pr } 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

A probabilidade de 0, 1, 2, 3, 7, 8, 9 ou 10 caras em 10 jogos é igual à soma de suas probabilidades individuais:

0 , 0010 + 0 , 0098 + 0 , 0439 + 0 , 1172 + 0 , 1172 + 0 , 0439 + 0 , 0098 + 0 , 0010 = 0 , 3438. {\displaystyle 0,0010+0,0098+0,0439+0,1172+0,1172+0,0439+0,0098+0,0010=0,3438.}

Assim, a probabilidade de observar 3 ou menos sinais de mais ou 7 ou mais sinais de mais nos dados de sobrevivência, se a mediana da sobrevivência for igual a 200 semanas, é 0,3438. O número esperado de sinais de mais é igual a 5 se a hipótese nula for verdadeira. Observar 3 ou menos ou 7 ou mais sinais de mais não é significantemente diferente de 5. A hipótese nula não é rejeitada. Devido ao seu tamanho extremamente reduzido, esta amostra tem pouca potência para detectar uma diferença.

História

W. J. Conover e P. Sprent descrevem o uso de teste do sinal por John Arbuthnot em 1710.[8][9] Arbuthnot examinou certidões de nascimento em Londres para cada um dos 82 anos entre 1629 e 1710. Em todo ano, o número de homens nascidos em Londres superou o número de mulheres. Se a hipótese nula de números iguais de nascimentos de cada sexo for verdadeira, a probabilidade da observação esperada é 0 , 5 82 {\displaystyle 0,5^{82}} , o que levou Arbuthnot a concluir que as probabilidades de nascimentos de homens e de mulheres não eram exatamente iguais.

Por suas publicações em 1692 e 1710, Arbuthnot é creditado pelo "primeiro uso de testes de significância",[10] pelo primeiro exemplo de raciocínio sobre significância estatística e certeza moral[11] e "talvez pelo primeiro relatório publicado com um teste não paramétrico".[8]

Anders Hald descreveu posteriormente o impacto da pesquisa de Arbuthnot da seguinte forma: "Entre 1710 e 1713, Nicholas Bernoulli completou a análise dos dados de Arbuthnot mostrando que a maior parte da variação do número anual de nascimentos de homens pode ser explicada como binomial com p = 18 / 35 {\displaystyle p=18/35} . Este é o primeiro exemplo de ajuste de uma binomial a dados. Assim, temos aqui um teste de significância que rejeita a hipótese p = 0 , 5 {\displaystyle p=0,5} seguido pela estimativa de p {\displaystyle p} e por uma discussão sobre qualidade do ajuste."[11]

Relação com outros testes estatísticos

Teste de postos sinalizados de Wilcoxon

O teste do sinal exige apenas que as observações em um par estejam ordenadas, por exemplo, x > y {\displaystyle x>y} . Em alguns casos, pode-se atribuir um valor de posto às observações para todos os sujeitos (1, 2, 3, ...). Se as observações puderem ser ranqueadas e cada observação em um par for uma amostra aleatória a partir de uma distribuição simétrica, então, o teste de postos sinalizados de Wilcoxon é apropriado. O teste de Wilcoxon geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparado ao teste de postos sinalizados de Wilcoxon, sob estas circunstâncias, é igual a 0,67.[8][12]

Teste t pareado

Se as observações pareadas forem quantidades numéricas (tais como os comprimentos reais da pata traseira e da pata dianteira no exemplo acima) e as diferenças entre as observações pareadas forem amostras aleatórias a partir de uma única distribuição normal, entao, o teste t pareado é apropriado. O teste t pareado geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparada ao teste t pareado, sob estas circunstâncias, é igual a 0,637. Entretanto, se a distribuição das diferenças entre os pares não for normal, mas, em vez disso, tiver uma curtose muito baixo (distribuição platicúrtica), o teste do sinal pode ter maior potência do que o teste t pareado, como eficiência relativa assintótica igual a 2 comparado ao teste t pareado e igual a 1,3 comparado o teste do posto sinalizado de Wilcoxon.[8][12]

Teste de McNemar

Em algumas aplicações, as observações no interior de cada par podem apenas assumir os valores 0 ou 1. Por exemplo, 0 pode indicar fracasso e 1 pode indicar sucesso. Há quatro pares possíveis: { 0 , 0 } {\displaystyle \{0,0\}} , { 0 , 1 } {\displaystyle \{0,1\}} , { 1 , 0 } {\displaystyle \{1,0\}} , { 1 , 1 } {\displaystyle \{1,1\}} . Nestes casos, o mesmo procedimento do teste do sinal é usado, mas é conhecido como teste de McNemar.[8]

Teste de Friedman

Em vez de observações pareadas tais como ( P r o d u t o   A , P r o d u t o   B ) {\displaystyle (Produto\ A,Produto\ B)} , os dados podem consistir em três ou mais níveis, como ( P r o d u t o   A , P r o d u t o   B , P r o d u t o   C ) {\displaystyle (Produto\ A,Produto\ B,Produto\ C)} . Se as observações individuais puderem ser ordenadas de forma igual à do teste do sinal, por exemplo, B > C > A {\displaystyle B>C>A} , então, o teste de Friedman pode ser usado.[7]

Ver também

  • Teste de Wilcoxon

Referências

  1. Thomas., Baguley, (2012). Serious Stats. [S.l.]: Palgrave Macmillan. ISBN 9780230363557. OCLC 965718721 
  2. 1972-, Corder, Gregory W.,. Nonparametric statistics : a step-by-step approach Second ed. Hoboken, New Jersey: [s.n.] ISBN 9781118840429. OCLC 862222362 
  3. «The Sign Test for a Median | STAT 414 / 415». onlinecourses.science.psu.edu (em inglês). Consultado em 28 de setembro de 2017 
  4. 1938-, Gibbons, Jean Dickinson, (2003). Nonparametric statistical inference 4th ed. New York: M. Dekker. ISBN 9780824755225. OCLC 53893359 
  5. a b J., Kitchens, Larry (2003). Basic statistics and data analysis. Pacific Grove, CA: Thomson/Brooks/Cole. ISBN 9780534384654. OCLC 51223638 
  6. William., Mendenhall,; L., Scheaffer, Richard (1990). Mathematical statistics with applications 4th ed. Boston: PWS-Kent Pub. Co. ISBN 0534920268. OCLC 19776139 
  7. a b 1941-, Zar, Jerrold H., (1999). Biostatistical analysis 4th ed. Upper Saddle River, N.J.: Prentice Hall. ISBN 013081542X. OCLC 39498633 
  8. a b c d e f J., Conover, W. (1999). Practical nonparametric statistics 3rd ed. New York: Wiley. ISBN 0471160687. OCLC 39261809 
  9. a b Peter., Sprent, (1993). Applied nonparametric statistical methods 2nd ed. London: Chapman & Hall. ISBN 0412449803. OCLC 27071041 
  10. C., Heyde, C.; 1941-, Seneta, E. (Eugene), (2001). Statisticians of the centuries. New York: Springer. ISBN 0387953299. OCLC 46791088 
  11. a b Hald, Anders (22 de abril de 1998). A history of mathematical statistics from 1750 to 1930 (em inglês). [S.l.]: Wiley. ISBN 9780471179122 
  12. a b 1917-, Lehmann, E. L. (Erich Leo), (2006). Nonparametrics : statistical methods based on ranks Rev. 1st ed. New York: Springer. ISBN 9780387352121. OCLC 71747543 
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística