| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

View
 

Tests de Hipótesis

Page history last edited by Alfredo Ascanio 16 years ago

Los tests de hipótesis consisten en poder comprobar si los resultados de estadígrafos como la media, la frecuencia. la varianza y la correlación lineal que surgen de unos datos son aceptables porque también forman parte como parámetros de la población, o por el contrario los datos solamente se han debido a una casualidad  o a un hecho fortuito y no se deben aceptar como válidos.

 

El test parte de lo que se llama una HIPOTESIS NULA  ( Ho ) o sea el investigador señala que los resultados no son estadísticamente significativos, pero para aceptar o rechazar esa hipótesis nula es necesario hacer varios cálculos con determinadas fórmulas. Veamos este  ejemplo  para aclarar el asunto : si una empresa solicita reclutar a un especialista en Química y dos candidatos son sometidos a 10 pruebas psicotécnicas y  estas 10 pruebas para los candidatos A y B son como aparecen en seguida:

 

 

Pruebas A B  
1 20 19 +1
2 17 18 -1
3 18 20 -2
4 20 17 +3
5 19 18 +1
6 18 17 +1
7 19 19 0
8 20 19 +1
9 19 20 -1
10 20 19 +1
Totales 190 186 +4
Medias 19 18,6 x=+0,4

 

La pregunta básica es la siguiente : ¿ Puede considerarse que el Químico A ha salido mejor en las pruebas que el Químico B, o viceversa ? La hipótesis nula (Ho) del investigador dice que la diferencia media de +0,4 registrada no es una diferencia aceptable, pues seguramente se debió a una circunstancia fortuita y que esa diferencia seguro que no aparece en la población de donde se tomó la muestra. Y esta hipótesis nula es la que tenemos que que comprobar o rechazar con un TEST adecuado. El Test para este ejemplo, se llama significado de una media y lo primero que se hace es calcular la desviación típica (s) con los valores de las diferencias de la tabla de arriba, según una fórmula adecuada como aparece en seguida:  la Raíz Cuadrada de la sumatoria de las 10 diferencias elevadas cada una al cuadrado todo ello multiplicado por la sumatoria de esas diferencias, pero elevada al cuadrado esa sumatoria y entre las10 pruebas;  finalmente,  todo ello entre 10 - 1 (el  grado de libertad); entonces, el resultado es :  s = 1,430.

 

Luego se calcula el valor "t" con los datos siguientes :  el valor estimado de s = 1,430 y  el valor de  N = 10, o sea: 1,430 / raíz de 10 = 1,430 / 3,162 = 0,452 ;  y ahora : +0,4 / 0,452 = 0,885.

 

Otro dato es lo que se llama el grado de libertad que es igual a : 10-1 = 9. Si ahora vamos a la Tabla "t" Ad-Hoc especial donde aparece el dato crítico, la cual nos muestra que 9 grados de libertad con un nivel de significación del 5%  arroja el valor de 2,262,  entonces veremos que nuestra "t" calculada fue de 0,885 y como es menor que el dato crítico de 2,262 tenemos que concluir que la diferencia entre los dos Químicos ( A y B ) no es del todo significativa, pues la probabilidad que corresponde a este resultado es bastante mayor del 20% y puede  oscilar alrredor del 40%; entonces, se acepta la Hipótesis Nula: es decir que el Químico A no es mejor candidato que el Químico B, pues la diferencia encontrada de +0,4 seguramente se debió a un hecho fortuito. En resumen:  se requiere otro tipo de prueba para desempatar a los candidatos que compiten por el puesto.

 

Entonces todos los estadígrafos calculados con la estadística descriptiva no se deben aceptar en forma intuitiva, sino que es necesario realizar un test de significación estadístico y en esto justamente consiste la ESTADISTICA INDUCTIVA o INFERENCIAL.

 

También se realizan test para comparar estadígrafos de de dispersión y en especial la varianza (que es la desviación típica al cuadrado). Con un ejemplo quedará más claro este test. Supongamos que en una empresa textil se utilizan dos métodos para medir el grado de resistencia de los hilos. La Gerencia requiere saber si estos dos métodos se pueden utilizar indiferentemente o no. Parra ello el técnico de la empresa ejecuta sobre una misma bobina de hilo, 5 pruebas según el Método A y 7 pruebas según el Método B. Los resultados aparecen en el cuadro siguiente:

X X prima X al cuadrado X prima al cuadrado
4 3 16 9
5 4 25 16
6 5 36 25
5 4 25 16
5 2 25 4
- 0 - 0
- 0 - 0
25 18 127 70

 

 

Ahora calculamos las varianzas de las dos muestras de esta manera:

 

s al cuadrado de X = 127 - 25 al cuadrado /5 y entre 5-1 = 127 - 125 / 4 = 0,5

s al cuadrado de X prima = 70 - 18 al cuadrado / 7 y entre 7-1 = 70 - 46,29 / 6 = 3,95

 

Ahora aplicamos el test "F" de Fischer, dividiendo el resultado mayor entre el menor de esta manera:

 

F = 3,95 / 0,5 = 7,90

 

Es necesario observar que los grados de libertad para las dos muestras son:

 

para x = 5 - 1 = 4

para x prima = 7 - 1 = 6

 

Al ir a la tabla Ad-Hoc especial que se llama  Relación de varianza F y donde aparecen los datos críticos según diversos niveles de significación y para el agrado de libertad 4 y 6 encontramos lo siguiente:

 

 

Niveles de significación 20% 10% 5% 1% 0,1%
Valor de F 2,5 4,0 6,2 15,2 50,5

 

Como en nuestro cálculo de "F" hemos obtenido 7,90,  y ese dato se encuentra en la Tabla Crítica entre los niveles 5% y 1%; entonces, con ese resultado podemos admitir que las dos varianzas son diferentes, pues sólo hay 5% a 1% de probabilidad de que sean las mismas. El técnico de la empresa textil tiene que aceptar que los dos métodos para medir el grado de la resistencia del hilo no se pueden utilizar indiferentemente. Es decir se deduce que sí hay diferencias significativas entre las dos varianzas. Por consiguiente, los métodos utilizados en los hilos se pueden considerar diferentes.

 

Pero en otro ejemplo el resultado puede hacer que se acepte la Hipótesis Nula. Por ejemplo las ventas en toneladas de un mismo producto en la región A y en la Región B han alcanzado variaciones durante el primer semestre del año, como aparece en el cuadro siguiente:

 

 

Mes Región A = x Región B = x prima
Enero 230 242
Febrero 201 208
Marzo 234 240
Abril 217 236
Mayo 245 251
Junio 222 243

 

 

Pareciera que en la Región B las ventas fueron mejores pues al hacer la sumatoria se obtiene un total semestral igual a 1.420 toneladas, mientras qu en la Región A el resultado fue de 1.349. No obstante, el investigador parte de la Hipótesis Nula (Ho) al señalar que no hay diferencias significativas entre las dos regiones y que las variaciones de las ventas en A y en B se pueden considerar como las mismas. Ahora es necesario realizar un Test de Hipótesis para aceptar o rechazar la Hipótesis Nula anterior. En Test de F de Fischer consiste en obtener las varianzas para cada uno de las regiones a fin de hacer un cálculo y compararlo luego con lo que aparezca en la Tabla de relación de varianzas F.

 

Para simplificar los cálculso quitamos 200 de todos los datos y calculamos las varianzas de X  y de X prima:

 

 

X X prima X al cuadrado X prima al cuadrado
30 42 900 1764
1 8 1 64
34 40 1156 1600
17 36 289 1296
45 51 2025 2601
22 43 484 1849
149 220 4855 9174

 

Calculamos las varianzas de X y de X prima de esta manera:

 

s al cuadrado de x = 4855 - 149 al cuadrado / 6 y entre 6-1 = 4855 - 3700 / 5 = 231

s al cuadrado de x prima = 9174 - 220 al cuadrado / 6 y entre 6-1 = 9174 - 8067 /5 = 221

 

La relación "F" de Fischer calculada es como sigue (el dato mayor entre el menor) :

F 0 231 / 221 =1,045

Los grados de libertad son 5 para las dos muestras. Al ir a la Tabla de relaciones de Varianza F donde encontramos los datos críticos, alli observamos con 5  y 5 grados de libertad lo siguiente:

 

 

 

Niveles de significación 0,20 0,10 0,05 0,01 0,001
Valor de F 2,2 3,5 5,1 11,0 29,8
 
   
Recordemos que la F calculada fue igual a 1,045 y ese valor corresponde en la tabla a un nivel de significación mayor de 20%.  
   
Entonces se puede deducir que se acepta la Hipótesis Nula, o sea: que no existe diferencias significativas entre las dos varianzas y que las ventas en las dos regiones se consideran como las mismas. La Región B no es mejor mercado que la región A desde el punto de vista de la población.  
   

 

Si las diferencias se debieron a un hecho fortuito, tres causas son posibles:

 

1) que efectivamente las diferencias no son estadísticamente significativas en la población

2) que las observaciones son poco numerosas

3) que la muestra se tomó de una población insuficientemente homogénea

 

A veces los resultados de una investigación nos proporcionan la comparación global de grupos de frecuencias y lo que se quiere saber es si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica o si esas dos frecuencias acusan diferencias significativas. Otra vez aquí el buen sentido no basta. Se debe aplicar un test que se llama Chi Cuadrado como se ilustra en el siguiente ejemplo:

 

Una estadística de problemas con los turistas ocurridos en el Hotel A y en el Hotel B muestran que de 102 problemas, 59 han ocurrido en el Hotel A y 43 en el hotel B. La Hipótesis Nula del investigador es que no existe relación entre el número de problemas y el hecho de que ocurra en el Hotel A o en el Hotel B. Esta hipótesis nula (Ho) hay que aceptarla o rechazarla con el Test CHI CUDRADO.   Lo primero que podemos decir es que si no existe relación entre el número de problemas y los hoteles A y B, los problemas deberían repartirse por iguales entre esos alojamientos, o sea : 51 para cada uno (total 102 problemas). Entonces ahora tenemos las frecuencias observadas y las frecuencias teóricas en una Tabla 1 x 2 , como sigue :

a = 59 y b = 43

a prima = 51 y b prima = 51

 

La fórmula que permite obtener el Chi Cuadrado es como a parece en seguida:

 

Chi cuadrado = [ (59 - 51 ) - 0,5 ] al cuadrado / 51 + [ (43 - 51 ) -0,5 ] al cuadrado / 51

Chi cuadrado = 7,5 al cuadrado / 51 + 7,5 al cuadrado / 51

Chi cuadrado = 56,25 / 51 + 56,25 /51 = 1,103 + 1,103 = 2,206

Para 1 grado de libertad

 

Al revisar la Tabla Chi Cuadrado  de datos críticos nos muestra que para 1 grado de libertad el valor debe ser igual o mayor que 3.841 para un nivel de significación del 5%. y dado que nuestro Chi cuadrado calculado es igual a : 2,206 o sea menor que el dato crítico, entonces la Hipótesis Nula es cierta o sea no se pude rechazar y hay que aceptarla para concluir que : "No existe razón para suponer que se producen más problemas en el Hotel A que en el Hotel B".

 

Cuando comparamos dos variables y las relacionamos podemos encontrar un coeficiente de correlación lineal ( y un coeficiente de determinación), pero aunque veamos que el coeficiente obtenido es elevado (por ejemplo 89%) no debemos confiarnos en ese dato, pues es necesario hacer una prueba de hipótesis para comrobar la bondad del mismo. Vamos a ilustrar esto con un ejemplo:

 

El Jefe de Publicidad de una empresa desea conocer si existe una relación directa entre los gastos anuales que la empresa realiza en publicidad y el tonelaje vendido anualmente de un producto de la firma. Estos datos totales son como siguen:

 

 

Toneladas vendidas totales 682
Gastos de publicidad totales

143

 

Veamos las ventas y los gastos publicitarios para los 5 años:

 

 

Ventas= x Publicidad= x prima x menos x promedio x prima menos x prima promedio x menos x  promedio pero al cuadrado x prima menos x prima promedio pero al cuadrado ( X - X promedio) * ( X prima  menos X prima promedio)      
32 8 -81,7 -15,8 6674,9 9,6 +1290,0      
54 22 -59,7 -1,8 3564,1 3,2 + 107,5      
95 17 -18,7 -6,8 349,7 46,2 +122,9      
157 27 +43,3 + 3,2 1874,9 10,2 +138,8      
164 36 +50,3 + 12,2 2530,1 14,8 + 613,7      
180 33 +66,3 + 9,2 4395,7 84,6 + 610,0      

 

Los totales de las 7 columnas son:

682, 143, 0, 0, 19389,4, 54,6 y + 2883,8

El valor promedio de  las ventas o sea x = 113,7

El valor promedio de la publicidad o sea x prima = 23,8

 

Ahora con los datos de la tabla anterior podemos calcular el coeficiente de correlación entre la variable ventas y la variable gastos publicitarios:

 

r =  2.883,8 / Raiz de 19389,4 x 542,6 = 2.883,8 / 3244 = 0,889

 

El resultado es un coeficiente de correlación lineal muy elevado del 88,9% ( y un coeficiente de determinación igual a : 79%) y por intuición se diría que la correlación lineal enter las ventas y la publicidad es relevante (a mayor publicidad mayores ventas). Pero es necesario hacer un test, para poder aceptar o no la Hipótesis Nula (Ho) que dice que no existe tal correlación lineal en la población de donde se extrajo la muestra. El número de pares de datos es 6 y menos 2 = 4 grados de libertad.

 

Al ir a la Tabla de los valores críticos del Coeficiente de Correlación para 4 grados de libertad nos arroja un nivel de signifiacción de 1% a 2%. O sea es muy significativa la correlación positiva entre ventas y los gastos publicitarios, así rechazamos la Hipótesis Nula (Ho) y nos quedamos con la Hipótesis Alternativa ( H1) que nos dicen que en efecto las ventas crecen proporcionalmente a los gastos de publicidad.

Comments (0)

You don't have permission to comment on this page.