Teste t de Student

O teste t de Student ou somente teste t é um teste de hipótese que usa conceitos estatísticos para rejeitar ou não uma hipótese nula quando a estatística de teste ( t {\displaystyle t\;} ) segue uma distribuição t de Student.

Essa premissa é normalmente usada quando a estatística de teste, na verdade, segue uma distribuição normal, mas a variância da população σ {\displaystyle \sigma } 2 é desconhecida. Nesse caso, é usada a variância amostral s {\displaystyle s\;} 2 e, com esse ajuste, a estatística de teste passa a seguir uma distribuição t de Student.

História

A estatística t foi introduzida em 1908 por William Sealy Gosset, químico da cervejaria Guinness em Dublin, Irlanda ("student" era seu pseudônimo).[1][2][3] Gosset havia sido contratado devido à política inovadora de Claude Guinness de recrutar os melhores graduados de Oxford e Cambridge para os cargos de bioquímico e estatístico da indústria Guinness.[2] Gosset desenvolveu o Teste t como um modo barato de monitorar a qualidade da cerveja tipo stout. Ele publicou o Teste t na revista acadêmica Biometrika em 1908, mas foi forçado a usar seu pseudônimo pelo seu empregador, que acreditava que o fato de usar estatística era um segredo industrial. De fato, a identidade de Gosset não foi reconhecida por seus colegas estatísticos.[4]

Conceito

Função Densidade de Probabilidade para t de Student, indicando o p-valor unicaudal para determinado t
Função Densidade de Probabilidade para t de Student, indicando o nível de confiança α {\displaystyle \alpha } e o p-valor bicaudal para determinado t

Se forem feitas inúmeras amostras de tamanho n {\displaystyle n\!} a partir da mesma população e se fossem tiradas as médias de uma variável dessa população que possui uma distribuição normal, a distribuição dessas inúmeras médias seguiria uma distribuição t de Student. Por exemplo, imaginemos que a altura das pessoas segue uma distribuição normal. Se selecionarmos diversas amostras aleatórias de 100 pessoas e calculássemos a média da altura das pessoas de cada amostra, essa média da altura das pessoas seguirá uma distribuição t de Student.

Perceba que, na distribuição t de Student, valores muito baixos ou muito altos tem menor probabilidade de ocorrer, indicando que é menos provável que a média de uma amostra apresente valores muito distantes da média da população.

O formato da distribuição t de Student depende do número de graus de liberdade. Quanto maior o número de graus de liberdade, mais "concentrada" é a distribuição. Para valores muito grandes de graus de liberdade, a distribuição t de Student se aproxima da distribuição normal.

O Teste t consiste em formular uma hipótese nula e consequentemente uma hipótese alternativa, calcular o valor de t {\displaystyle t\!} conforme a fórmula apropriada (abaixo) e aplicá-lo à função densidade de probabilidade da distribuição t de Student medindo o tamanho da área abaixo dessa função para valores maiores ou iguais a t {\displaystyle t\!} . Essa área representa a probabilidade da média dessa(s) amostra(s) em questão ter(em) apresentado o(s) valor(es) observado(s) ou algo mais extremo. Se a probabilidade desse resultado ter ocorrido for muito pequena, podemos concluir que o resultado observado é estatisticamente relevante. Essa probabilidade também é chamada de p-valor ou valor p. Consequentemente, o nível de confiança α {\displaystyle \alpha \!} é igual a 1 - p-valor.

Normalmente é usado um "ponto de corte" para o p-valor ou para o nível de confiança para definir se a hipótese nula deve ser rejeitada ou não. Se o p-valor for menor que esse "ponto de corte", a hipótese nula é rejeitada. Caso contrário, a hipótese nula não é rejeitada.

É comum que sejam usados os "pontos de corte" para p-valor 0,1%, 0,5%, 1%, 2% ou 5%, fazendo com que os níveis de confiança sejam, respectivamente, 99,9%, 99,5%, 99%, 98% ou 95%. Caso seja usado o p-valor 5% como "ponto de corte" e a área abaixo da função densidade de probabilidade da distribuição t de Student seja menor do que 5%, pode-se afirmar que a hipótese nula é rejeitada com nível de confiança de 95%.

Note que não rejeitar a hipótese nula não é a mesma coisa que afirmar que a hipótese alternativa é válida com o mesmo nível de confiança. Isso seria uma interpretação incorreta do teste.

Unicaudal vs. Bicaudal

Dependendo da definição da hipótese nula, deve ser usado uma ou duas caudas da distribuição t de Student na avaliação do teste. Por exemplo, se a hipótese nula for x ¯ μ 0 {\displaystyle {\bar {x}}\leq \mu _{0}} e a hipótese alternativa x ¯ > μ 0 {\displaystyle {\bar {x}}>\mu _{0}} , o teste deve ser feito somente para valores maiores do que t {\displaystyle t\!} e, portanto, ao consultar a função densidade de probabilidade da distribuição t de Student, deve-se considerar somente a área superior a t {\displaystyle t\!} , ou seja, somente uma das "caudas" da distribuição.

Por outro lado, se a hipótese nula for x ¯ = μ 0 {\displaystyle {\bar {x}}=\mu _{0}} e, consequentemente, a hipótese alternativa x ¯ μ 0 {\displaystyle {\bar {x}}\neq \mu _{0}} , teríamos que avaliar ao mesmo tempo a possibilidade de x ¯ < μ 0 {\displaystyle {\bar {x}}<\mu _{0}} e de x ¯ > μ 0 {\displaystyle {\bar {x}}>\mu _{0}} . Para isso, ao consultar a função densidade de probabilidade da distribuição t de Student, devem ser consideradas as áreas abaixo da curva para valores superiores a t {\displaystyle t\!} e inferiores a t {\displaystyle -t\!} , ou seja, as duas "caudas" da distribuição. Como a distribuição é simétrica, os tamanhos dessas áreas são iguais.

Teste t para média de uma amostra

O teste t para média de uma amostra consiste em medir a probabilidade da média da amostra em questão ter apresentado o valor observado x ¯ {\displaystyle {\bar {x}}} ou algo mais extremo, dada a média da população μ 0 {\displaystyle \mu _{0}\!} .

Para fazer isso, estipulamos, por exemplo, que a hipótese nula é x ¯ μ 0 {\displaystyle {\bar {x}}\leq \mu _{0}} e que, por consequência, a hipótese alternativa é x ¯ > μ 0 {\displaystyle {\bar {x}}>\mu _{0}} . Usamos a seguinte fórmula para o cálculo da estatística t:

t = x ¯ μ 0 s n {\displaystyle t={\frac {{\bar {x}}-\mu _{0}}{\tfrac {s}{\sqrt {n}}}}}

Em que:

  • x ¯ {\displaystyle {\bar {x}}} : Média da amostra;
  • μ 0 {\displaystyle \mu _{0}\!} : Valor fixo usado para comparação com a média da amostra;
  • s {\displaystyle s\!} : Desvio padrão amostral;
  • n {\displaystyle n\!} : Tamanho da amostra.

Quanto maior t {\displaystyle t\!} , mais confiança temos ao rejeitar a hipótese nula, ou seja, mais certeza temos ao afirmar que x ¯ μ 0 {\displaystyle {\bar {x}}\leq \mu _{0}} não é verdadeiro.

Note que, na fórmula acima, quanto maior x ¯ μ 0 {\displaystyle {\bar {x}}-\mu _{0}} , maior será t {\displaystyle t\!} . Ou seja, quanto maior a distância dos valores observados ao valor que estamos comparando, mais certeza teremos em afirmar que eles são diferentes. Do mesmo modo, t {\displaystyle t\!} aumenta quando o tamanho da amostra n {\displaystyle n\!} é maior ou quando o desvio padrão s {\displaystyle s\!} é menor. Teoricamente, o desvio padrão a ser usado deveria ser o da população (normalmente identificado com o símbolo σ {\displaystyle \sigma \!} ), mas em muitos casos práticos esse valor é desconhecido, sendo necessário aproximá-lo pelo desvio padrão amostral s {\displaystyle s\!} :

s = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s={\sqrt {{\dfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}

Exemplo prático

Determinado carro consegue percorrer 15 km a cada litro de combustível gasto em uma estrada plana e de boas condições, mas essa distância pode variar devido a diversos fatores. Digamos que a distância percorrida por litro de combustível tenha uma distribuição normal com média 15 km e desvio padrão de 2 km.

Suponhamos que seja feita uma modificação no motor desse carro com o objetivo de aumentar a distância percorrida por litro de combustível. Depois da modificação, foram realizados 10 testes. Nesses testes, a média das distâncias percorridas por litro de combustível foi de 16,6 km.

A princípio, como 16,6 km é uma distância superior a 15 km, parece que a modificação no motor aumentou a distância percorrida por litro de combustível. Mas, para comprovar esse efeito de forma estatística, definimos a hipótese nula x ¯ μ 0 {\displaystyle {\bar {x}}\leq \mu _{0}} e calculamos o valor de t {\displaystyle t\!} .

Neste caso, temos:

x ¯ = 16 , 6 k m {\displaystyle {\bar {x}}=16,6\,\mathrm {km} }
μ 0 = 15 k m {\displaystyle \mu _{0}=15\,\mathrm {km} }
s = 2 k m {\displaystyle s=2\,\mathrm {km} }
n = 10 {\displaystyle n=10}

Assim,

t = 16 , 6 15 2 10 = 2 , 53 {\displaystyle t={\frac {16,6-15}{\tfrac {2}{\sqrt {10}}}}=2,53}

Conforme a função de densidade de probabilidade da distribuição t de Student com 9 (10-1) graus de liberdade, existe 1,61% de probabilidade de valores superiores a 2,53 terem sido obtidos caso a distância percorrida por litro de combustível não ter sido alterada. Se estivermos usando nível de confiança de 95%, rejeitaríamos a hipótese nula x ¯ μ 0 {\displaystyle {\bar {x}}\leq \mu _{0}} . Isso pode ser explicado de duas formas:

  • A probabilidade obtida com o t calculado (1,61%) é inferior ao "ponto de corte" do p-valor (5%), ou
  • O valor t do "ponto de corte" escolhido (95% de confiança, que corresponde ao t de 1,833), é inferior ao t calculado (2,53).

Na primeira explicação, é necessário calcular a área abaixo da função densidade de probabilidade da distribuição t de Student com 9 graus de liberdade para valores superiores a 2,53 usando algum software estatístico ou planilha de cálculo. Na segunda explicação, além dos softwares estatísticos ou planilhas de cálculo, também poderia-se chegar no valor 1,833 usando uma tabela de valores para distribuição t de Student, que normalmente constam em livros de estatística.

Perceba que, se usássemos nível de confiança de 99%, ao invés de 95%, não rejeitaríamos a hipótese nula porque:

  • A probabilidade obtida com o t calculado (1,61%) é superior ao "ponto de corte" do p-valor (1%), ou
  • O valor t do "ponto de corte" escolhido (99% de confiança, que corresponde ao t de 2,821), é superior ao t calculado (2,53).

Teste t para médias de duas amostras

Tamanhos iguais, variâncias iguais

Este teste só deve ser usado quando:

  • o tamanho das amostras (n) dos dois grupos são iguais;
  • Podemos assumir que as duas distribuições possuem a mesma variância.

A estatística t é calculada conforme a fórmula:

t = x ¯ 1 x ¯ 2 S x 1 x 2 2 n {\displaystyle t={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{S_{x_{1}x_{2}}\cdot {\sqrt {\frac {2}{n}}}}}}

,onde

  S x 1 x 2 = S x 1 2 + S x 2 2 2 {\displaystyle \ S_{x_{1}x_{2}}={\sqrt {\frac {S_{x_{1}}^{2}+S_{x_{2}}^{2}}{2}}}}

A quantidade de graus de liberdade a ser usado nesse teste é 2 n 2 {\displaystyle 2n-2} .

Tamanhos diferentes, variâncias iguais

Este teste só deve ser usado quando podemos assumir que as duas distribuições possuem a mesma variância.

A estatística t é calculada conforme a fórmula:

t = x ¯ 1 x ¯ 2 S x 1 x 2 1 n 1 + 1 n 2 {\displaystyle t={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{S_{x_{1}x_{2}}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}}

,onde

S x 1 x 2 = ( n 1 1 ) S x 1 2 + ( n 2 1 ) S x 2 2 n 1 + n 2 2 . {\displaystyle S_{x_{1}x_{2}}={\sqrt {\frac {(n_{1}-1)S_{x_{1}}^{2}+(n_{2}-1)S_{x_{2}}^{2}}{n_{1}+n_{2}-2}}}.}

A quantidade de graus de liberdade a ser usado nesse teste é n 1 + n 2 2 {\displaystyle n_{1}+n_{2}-2} .

Tamanhos diferentes, variâncias diferentes

Este teste é usado quando as amostras possuem variâncias diferentes. Para confirmar se as variâncias são realmente diferentes, é recomendável realizar um teste de variâncias.

A estatística t é calculada conforme a fórmula:

t = x ¯ 1 x ¯ 2 s x ¯ 1 x ¯ 2 {\displaystyle t={{\bar {x}}_{1}-{\bar {x}}_{2} \over s_{{\bar {x}}_{1}-{\bar {x}}_{2}}}}

,onde

s x ¯ 1 x ¯ 2 = s 1 2 n 1 + s 2 2 n 2 {\displaystyle s_{{\bar {x}}_{1}-{\bar {x}}_{2}}={\sqrt {{s_{1}^{2} \over n_{1}}+{s_{2}^{2} \over n_{2}}}}}

A quantidade de graus de liberdade a ser usado nesse teste é:

( s 1 2 / n 1 + s 2 2 / n 2 ) 2 ( s 1 2 / n 1 ) 2 / ( n 1 1 ) + ( s 2 2 / n 2 ) 2 / ( n 2 1 ) {\displaystyle {\frac {(s_{1}^{2}/n_{1}+s_{2}^{2}/n_{2})^{2}}{(s_{1}^{2}/n_{1})^{2}/(n_{1}-1)+(s_{2}^{2}/n_{2})^{2}/(n_{2}-1)}}}

Essa equação é chamada de Equação Welch–Satterthwaite.

Teste t para coeficiente de regressões

O Teste t também pode ser usado para testar a significância de coeficientes de regressões. Em geral esse teste é usado para confirmar se a variável que está sendo usada na regressão está realmente contribuindo para a estimativa.

Ver também

Referências

  1. Richard Mankiewicz, The Story of Mathematics (Princeton University Press), p.158.
  2. a b John J. O’Connor, Edmund F. RobertsonTeste t de Student. In: MacTutor History of Mathematics archive.
  3. Fisher Box, Joan (1987). «Guinness, Gosset, Fisher, and Small Samples». Statistical Science. 2 (1): 45–52. doi:10.1214/ss/1177013437 
  4. Raju TN (2005). «William Sealy Gosset and William A. Silverman: two "students" of science». Pediatrics. 116 (3): 732–5. PMID 16140715. doi:10.1542/peds.2005-1134 
  • v
  • d
  • e
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais
  • Portal de probabilidade e estatística