Unidad 1 - Estadísticas

1. INTRODUCCIÓN

En el siguiente trabajo se da conocer sobre la prueba de hipótesis la cual tiene distribución continua (para métricas) y distribución discretas (no para métricas) .

La distribución continua contiene:

Normal "Z"
Normal "t" de Student
Hipergeometricas

La distribución discreta vamos a estudiar las siguientes:

Poisson
Binomial
F de Fisher
Chi-Cuadrado

A continuación una breve explicación de sobre que es una prueba de hipótesis

PRUEBA DE HIPÓTESIS

Se les denomina así a los supuestos (hipótesis) realizados con respecto a un parámetro o estadístico (media, proporción, entre otros).

En este paso se definen dos tipos de hipótesis:

Ho: Hipótesis nula

H1: Hipótesis alterna (de la cual se sospecha pudiera ser cierta, es planteada por el investigador)

2. Distribución Normal Z

Se les denomina así a los supuestos (hipótesis) realizados con respecto a un parámetro o estadístico (media, proporción, entre otros).

En este paso se definen dos tipos de hipótesis:

Ho: Hipótesis nula

H1: Hipótesis alterna (de la cual se sospecha pudiera ser cierta, es planteada por el investigador)

Este tipo de desarrollo va de la forma: "¿Se podría afirmar que el promedio de tiempo que se demora una persona en vestirse es de 10 minutos?".

En el cual se desea averiguar de un variable si la cantidad inducida es correcta o falsa.

Dependiendo de cómo se plantee la incógnita, se pueden distinguir tres casos

Planteamiento con dos variables o por comparación

Este tipo de desarrollo va de la forma: "¿Se podría afirmar que las ganancias de las empresas medianas han crecido este año con respecto al año anterior?".

En el cual se compara un valor predefinido con respecto a una suposición entre una variable con otra variable para determinar si esta es correcta o falsa.

Dependiendo de cómo se plantee la incógnita, se pueden distinguir tres casos:

Nivel de significancia (α)

Se le conoce así al error máximo adoptado al momento de rechazar la hipótesis nula (Ho) cuando es verdadera.

Dependiendo del tipo de significación que se da al estudio, hay tres grados:

α = 0.01 → Demasiado significativo

α = 0.05 → Significativo

α = 0.10 → Poco significativo

Región de aceptación y rechazo

Valor de la distribución 'Z' o 't'

En este paso se procede a ubicar el intervalo de confianza para su próxima colocación en el gráfico de "aceptación y rechazo".

Hay dos formas de encontrar dicho valor: mediante la tabla " Z " o la tabla " t ".

Para definir cuál es la tabla en la que se buscará la información, se debe de considerar el número de datos con los que se cuenta.

Si la cantidad de datos sobrepasa o es igual a 30, se usará la tabla " Z "

Si la cantidad de datos son menores a 30, se usará la tabla " t ".

Ejemplo:

"De una muestra de 30 alumnos..." - Se usa la tabla Z.

"Se encuestó a 14 personas..." - Se usa la tabla t.

Estadística de prueba Z

Una media o promedio. Para muestras mayores o iguales a 30

Donde:

: Promedio parcial (de la muestra)

: Desviación poblacional total

µ: Valor de la hipótesis

n: Número de datos

Una proporción o porcentaje

Para muestras mayores o igual a 30

Donde:

P: Proporción de la muestra

Se puede conseguir de la siguiente forma, si el problema no lo da

X: Valor numérico de la muestra

P0: Proporción poblacional (total)

n: Número de datos

Diferencias de dos medias o promedios

Diferencias de dos proporciones o porcentajes

Ejercicios Prácticos

Caso N 1.

Prueba Z de una media o promedio

La duración de las bombillas de 100 watt que fabrica una empresa sigue una distribución normal con una desviación de 120 horas. Su vida media está garantizada durante un mínimo de 800 horas-

Se escoge al azar una muestra de 50 bombillas de un lote y. después de comprobarlas, se obtiene una vida media de 750 horas.

a) Con un nivel de significancia de 0,01 ¿Habría que rechazar el lote por no cumplir la garantía.

Resolución:

A primera vista parece que las bombillas están durando menos que lo prometido por el fabricante. (El fabricante garantiza que duran un promedio de 800 horas o más y obtuvimos una muestra de 750 horas.

Paso 1. Definir la variable

X: Duración en horas de una bombilla de 100 watt, fabricada por cierta empresa.

Paso 2. Plantear la hipótesis estadística

El fabricante afirma que dura 800 horas

Paso 3. Establecer un estadístico de prueba

Paso 4. Seleccionar un nivel de significación

ą: 0,01

Paso 5. Determinar la zona de rechazo y la regla de decisión

Cómo la hipótesis alternativa afirma que μ es menor que un cierto valor, entonces decimos que la prueba es unilateral izquierda: la zona de rechazo queda ubicada a la izquierda.

La distribución de ambos estadísticos es normal.

Así que el diagrama con la distribución del estadístico y la zona de rechazo a izquierda es así:

¿Cuál es el valor de la variable normal estándar que acumula una probabilidad de 0,01 a su izquierda?

Z 0,01=–2,33

Entonces la regla de decisión es:

· Rechazo H0 si ep ≤ –2,33.

· No rechazo H0 si ep > –2,33

Si c es aquel valor que acumula una probabilidad de 0,01 a su izquierda, entonces al estandarizarlo obtendremos z 0,01=–2,33 z 0,01=–2,33:

–2,33=c –800/120√50–2,33=

De acá podemos despejar c:
⇒¯XC=–2,33.120√50+800≅760,46

Obtenemos que el valor crítico es Zc = 760,46.

Luego la regla de decisión es:

· Rechazo H0 si  ≤ 760,46
· No rechazo H0 si  > 760,46

Paso 6:

Calcular el valor observado del estadístico de prueba
Usando el estadístico de prueba :
El valor observado  =750 pertenece a la zona de rechazo (–∞; 760,46)(–∞;760,46).
Si usamos el estadístico estandarizado tenemos que realizar el siguiente cálculo:

ep, obs=750–800120√50≅–2,95ep,obs=750–80012050≅–2,95

También ocurre que el valor observado (–2,95–2,95) pertenece a la zona de rechazo (–∞;–2,33)(–∞;–2,33).

Paso 7:

Obtener la conclusión

Decidimos rechazar la hipótesis nula.

La conclusión podría ser:
“Con un nivel de significación del 1% hay evidencias suficientes para afirmar que la media de la duración de las bombillas es inferior a 800 horas.”

Caso propuesto:

Una empresa eléctrica fabrica baterías de celular que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Una muestra aleatoria de 30 baterías tiene una duración promedio de 785 horas.

A) ¿muestran los datos suficiente evidencia para decir que la duración media es menor a 800? Utilice un nivel de significación del 5%.
B) ¿cuál es la probabilidad de decidir que la media es de 800 horas cuando en realidad es 780 horas?

Caso 2.

Prueba Z de una proporción o de un porcentaje

En una muestra de 105 comercios seleccionados al azar de una zona, se observa que 27 de ellos han tenido pérdidas en este mes. Un analista económico de la zona establece que la proporción de comercios en la zona con pérdidas es igual o superior a 0.35. Contraste dicha hipótesis a un nivel de significación del 5 %.

El contraste de una cola establece las hipótesis:

Frente a la alternativa:

La proporción en la muestra, p, de comercios con pérdidas es:

p= 27/105 = 0,26

q= 1-p = 0,74

El cuantil –Za correspondiente al nivel de significación 0.05 es igual a –Za = -1,65

El valor estadístico de contraste es:

Gráficamente tenemos:

Caso propuesto:

En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de que la proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.

Caso 3.

Prueba Z de dos medias o promedio

Para probar la afirmación de que la resistencia de un conductor eléctrico puede reducirse en más de 0.050 ohms mediante aleaciones, 32 valores obtenidos de alambre ordinario produjeron = 0.136 ohms y s1 = 0.004 ohms y 32 valores obtenidos con alambre fabricado en base a aleaciones produjeron = 0.083 ohms y s2 = 0.005 ohms. ¿Se apoya la afirmación con un nivel de significación de 0.05?

1 – Hipótesis Nula m1 - m2 = 0.050

Hipótesis Alternativa m1 - m2 > 0.050 (unilateral)

2 - Nivel de significancia: a =0.05. za = 1.65

3- Para trabajar con tablas normalizadas:

4- Cálculos:

5- Dado que 2.65 > z0.05 se Rechaza la Hipótesis Nula, por lo tanto se acepta la Hipótesis Alternativa, esto es se refrenda la afirmación m1 - m2 > 0.050. Vale decir, la aleación reduce significativamente en más de 0.050 ohms la resistencia del conductor.

Caso Propuesto:

La estatura media de 50 estudiantes de un colegio que tomaban parte en las pruebas atléticas fue de 1.70 mts con desviación estándar de 0.0625 mts, mientras que 50 estudiantes que no mostraban interés en tal participación tenían una estatura media de 1.687 mts con desviación estándar de 0.07 mts. Ensayar la hipótesis de que los estudiantes que participan en pruebas atléticas son más altos que los otros, con un nivel de significancia de 0.05.

CASO 4.

Prueba Z de dos proporciones o porcentajes

La administración de las tiendas Oxxo cree, sobre la base de una investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las especificaciones requeridas y el procedimiento para probar esta hipótesis es la siguiente:

1. Las hipótesis nula y alternativa son las siguientes:

; la proporción de hombres que reportan 9 o más visitas por mes es la misma o menor que la proporción de mujeres que hacen lo mismo.

; la proporción de hombres que reportan 9 o más visitas por mes es mayor a la proporción de mujeres que hacen lo mismo.

La información proporcionada es:

2. Especifica el nivel de significación de. El valor crítico para la prueba de una sola cola es de 1.64.

3. Estima el error estándar de la diferencia de las dos proporciones:

PH = proporción muestra de hombres (H)
PM = proporción muestra de mujeres (M)
NH = tamaño de muestra hombres
NM = tamaño de muestra mujeres

Por lo tanto:

4.- Calcula de prueba estadística:

La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor crítico Z. La administración no puede concluir con un 95 por ciento de confianza que la proporción de hombres que visita 9 o más veces los Oxxo es mayor que la proporción de mujeres.

Caso Propuesto:

Un especialista en genética ha detectado que el 26% de los hombres y el 24% de las mujeres de cierta región del país tiene un leve desorden sanguíneo; si se toman muestras de 150 hombres y 150 mujeres, determine la probabilidad de que la diferencia muestral de proporciones que tienen ese leve desorden sanguíneo sea de:

a) Menos de 0.035 a favor de los hombres.

b) Entre 0.01 y 0.04 a favor de los hombres.

3. Distribución “t” de Student

En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeña.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos varianzas muéstrales y para la construcción del intervalo de confianza para la diferencia entre las partes de dos poblaciones cuando se desconoce la desviación típica de una población y esta debe ser estimada a partir de los datos de una muestra.

Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.

Características de una distribución “t” student:

· Se usa para muestras pequeñas n<30
· El valor de α no se divide como en la distribución normal (z)
· Se calculan los grados de libertad

Esta distribución se expresa en forma de campana y simétrica, pero más achatada y con mas área en los extremos, es decir, las áreas corresponden a las regiones críticas (rc) o de rechazo. Se puede considerar que no hay una distribución “t”, sino más bien una familia de distribuciones “t”, dado que las desviaciones estándar se modifican a medida que se va aumentando el tamaño de la muestra, acercándose a la normal.

Grados de libertad

En términos numéricos los grados de libertad es igual al número de observaciones disminuido en el número de incógnitas a partir del número de datos obtenidos ν = n - 1. En términos generales, lo grados de libertad se refieren al número de observaciones independientes que se utilizan para hacer una estimación a partir de una muestra.

Tabla de la distribución “t” student

La tabla da áreas 1 - a y valores

, donde,

, y donde T tiene distribución t-Student con r grados de libertad..

Caso 1: Distribución de medias muéstrales

Cuando el problema nos da la desviación típica muestral y a la vez el tamaño de la muestra es menor o igual a 30 (n<30), se considera que la desviación esta sin corregir, procediendo a su corrección para ser aplicada en la variante estadística “t”.

De acuerdo a lo mencionado la formula a utilizar en este caso será la siguiente:

Ejemplo:

Un distribuidor de botas especiales para trabajo, garantiza al gerente de una empresa, que el promedio de duración de las botas es de 8,10 meses. La empresa decide comprar 25 pares de botas, que en promedio duran 7 meses y 15 días, con una varianza de 12.5 meses. ¿Al nivel del 5% se podrá decir que la duración de las botas es inferior al señalado por el distribuidor?

Solución

Datos:

µ = 8.10

n = 25

ẋ = 7.5

S^2= 12.5 = S=√12.5 S = 3.535533905932738

α = 0.05

Paso 1, planteamiento de la hipótesis

H_0= µ = 8.10
H_1= µ < 8.10

Paso 2, establecer el α y ѵ

α = 0.05

ѵ = n-1 = 25 - 1 = 24

Paso 3, determinar el valor de “t” en la tabla

El valor de “t” en la tabla corresponde a: 2.064

Paso 4, calcular el t_c

Paso 5, Comparar t_t con t_c

Paso 6, toma de decisión

A un nivel del 5% se acepta la hipótesis nula ya que el t_c se encuentra dentro de la zona de aceptación.

Ejercicio propuesto:

El departamento de admisiones de una universidad, sostiene que el promedio de calificación de los alumnos admitidos es de 380 puntos, de un total de 450 que exige. Si se toma una muestra de 25 alumnos cuyo promedio de de 360, con una desviación típica de 40 puntos. Al nivel del 1% ¿se puede afirmar que el puntaje de los admitidos es inferior al señalado?

Caso 2: Distribución de una proporción muestral

En muestras menores que 30 (n<30), correspondiente a distribuciones proporcionales, se aplica casi igual al de las muestras grandes, con la diferencia de ser una distribucion “t” y utilizaremos la siguiente formula:

Ejemplo:

La oficina de control de tránsito sostiene que el 30% de conductores de vehículos de servicio particular tienen el pase de conducción vencido. Se lleva a cabo una muestra de 20 conductores, encontrando que 9 de ellos tiene el pase vencido. ¿Al nivel del 10%, se puede afirmar que el porcentaje es mayor que el señalado por la oficina?

Solución:

Datos

P = 0.3

p = 9/20 = 0.45

n = 20

α = 0.10

q = 1-p = 1-0.45 = 0.55

Paso 1, planteamiento de la hipótesis

H_0= P = 0.30

H_1= P ≠ 0.30

Paso 2, establecer el α y ѵ

α = 0.10

ѵ = n-1 = 20 - 1 = 19

Paso 3, determinar el valor de “t” en la tabla

El valor de “t” en la tabla corresponde a: 1.729

Paso 4, calcular el t_c

Paso 5, Comparar t_t con t_c

Paso 6, toma de decisión

A un nivel del 10% se acepta la hipótesis nula de que el 30% de los conductores de servicio particular tiene el permiso caducado, ya que el t_c se encuentra dentro de la zona de aceptación

Ejercicio propuesto:

Un fabricante de automóviles afirma que sus autos de tipo familiar, el 86% de los casos pueden resistir un choque de frente a una velocidad inferior a los 70km/h, si utilizan cierto equipo. Se toma una muestra de 18 vehículos que tienen este equipo; se encuentra que 16 autos resisten un choque de frente. ¿Se puede decir, al nivel del 1% que el equipo es mucho más efectivo que la afirmación del fabricante?

Caso 3: distribución de diferencias entre dos medias muestrales

De acuerdo con el teorema del límite central, cuando ambas variables presentan tamaños muestrales (n_1 y n_2), y en el caso que ambos tamaños muestrales sean menores o iguales a 30, se aplicara la distribución “t” utilizando la siguiente formula:

Ejemplo:

De un estudio efectuado en 22 animales, a 11 de ellos se les dio proteína de maní crudo y a los otros 11 proteínas de maní tostado. A un nivel del 5%, pruebe la hipótesis de que la proteína de maní tostado he tenido menor efecto sobre el valor proteínico circulante.

Tipo de maní	Proteínas circulantes (A B)
Crudo	44	63	63	59	61	61	60	56	56	59	56
Tostado	61	59	63	55	58	54	47	51	57	54	54

Solución:

Datos

 = 58.00

 = 55.73

n_1= 11

n_2= 11

n_3= 24.41

S^2= 24.41

Paso 1, planteamiento de la hipótesis

H_0 = μ_x= μ_y

H_1 = μ_x > μ_y

Paso 2, establecer el α y ѵ

α = 0.05

ѵ = n_1 + n_2 - 2 = 11 + 11 – 2 = 20

Paso 3, determinar el valor de “t” en la tabla

El valor de “t” en la tabla corresponde a: 2.086

Paso 4, calcular el t_c

Paso 5, Comparar t_t con t_c

Paso 6, toma de decisión

A un nivel del 5% se puede llegar a la conclusión de que no existen diferencias significativas entre el valor proteínico circulante del maní crudo y el maní tostado, ya que el t_c se encuentra dentro de la zona de aceptación.

Ejercicio propuesto:

Una prueba de lectura fue rendida por los alumnos del primer curso de una escuela elemental. El resultado consistió en que de 10 alumnos que aprendieron a leer con el método A, su promedio fue de 3.5 y desviación típica de 0.5; con 12 alumnos por el método B, su promedio de calificación fue de 3.7 y desviación estándar de 0.4. ¿Al nivel del 5%, se podría afirmar que el método B es más efectivo que el A?

Caso 4: distribución de diferencias entre dos proporciones muestrales

En la aplicación de estas distribuciones en muestras pequeñas, se sigue el mismo procedimiento utilizado para muestras grandes (z), con la diferencia en la presentación de la formula, en la cual se trabaja con n₁-1 y n₂-1

La fórmula a utilizar es la siguiente:

Ejemplo:

En una empresa se considera que la proporción de permisos para ausentarse de la oficina en horas de trabajo, es mayor en los hombres que en las mujeres. Para comprobar la anterior afirmación se escogió una muestra de 20 hombres y 24 mujeres, observando que el número de permisos solicitados y concedidos fue de 14 y 10 respectivamente. La investigación se realizó sobre el total de permisos en un mes. ¿Al nivel del 5%, es válida esta afirmación?

Solución:

Datos

p₁ = 14/20 = 0.7

p₂ = 10/24 = 0.42

q₁ = 1-0.7 = 0.3

q₂ = 1-0.42 = 0.58

n₁ = 20

n₂ = 24

Paso 1, planteamiento de la hipótesis

H_0 = μ_x = μ_y

H_1 = μ_x > μ_y

Paso 2, establecer el α y ѵ

α = 0.05

ѵ = n₁+ n₂- 2 = 20 + 24 – 2 = 42

Paso 3, determinar el valor de “t” en la tabla

El valor de “t” en la tabla corresponde a: 2.018

Paso 4, calcular el t_c

Paso 5, Comparar t_t con t_c

Paso 6, toma de decisión

A un nivel del 5% el

se encuentra cerca de la zona de rechazo por lo que se afirma la hipótesis de que los hombres piden más permisos que las mujeres.

Ejercicio propuesto:

Una embutidora de carne ofrece para el consumo, dos clases de producto diferentes por el contenido de grasa. Se tomaron dos muestras teniendo en cuenta la clase del producto, para preguntar si la aceptación dependía del contenido de grasa. En el primero, en una muestra de 16 consumidores, 6 compraron poco contenido; en la muestra de 10, solo 3 no tuvieron en cuenta el contenido de grasa. ¿Es válida la afirmación de la preferencia depende del nivel de grasa?

4. Distribución Hipergeometrica

La distribución hipergeometrica surge en situaciones en donde el modelo aproximado de probabilidad se corresponde con muestreo sin reemplazamiento de una población dicotómica (éxito y fracaso) finita. Concretamente las suposiciones que llevan a considerar esta distribución son:

La población o conjunto donde deba hacerse el muestreo consta de N o elementos a seleccionar.
Cada individuo puede ser caracterizado como un éxito (E) o fracaso (F)
Se selecciona una muestra de n individuos de entre los k individuos marcados. Como éxito y los N – k restantes como fracasos.

Hay selección equiprobable en cada caso.
Al igual que la distribución de Binomial y de Poisson, la hipergeometrica corresponde a variables aleatorias discretas.
La distribución hipergeometrica está asociada, generalmente, con un proceso de muestreo sin reposición en una población finita.

Las características o condiciones que debe reunir una distribución hipergeometrica, son:

La información de la muestra se toma sin reposición de una población finita.
La probabilidad de éxito no es constante, cambia para cada observación.
El resultado de una prueba es dependiente de la prueba anterior, siempre se verá afectado por el resultado de observaciones previas
El tamaño de la muestra (n) debe ser superior en un 5% con respecto al tamaño de la población N.
Se relaciona con situaciones que tengan que ver con dos o más resultados
La distribución es adecuada, cuando el tamaño de la población es pequeña

Esta última condición limita su aplicación.

La fórmula que se debe emplear para la distribución hipergeometrica es:

Siendo:

N = Tamaño de la población

A = Numero de éxitos de la población

n = Tamaño de la muestra

x = Numero de éxitos de la muestra

Es necesario tener en cuenta que X no puede acceder a A ni a n. recordemos que:

Caso resuelto 1

En la producción de cierto artículo se sabe que por cada 50 producidos, en 43 su terminado es excelente. Si se toma una muestra de 12 artículos. ¿Cuál es la probabilidad: (a) de que exactamente dos no sean clasificados como excelentes; (b) por lo menos dos no sean clasificados como excelentes; (c) diez sean clasificados como excelentes?

Caso resuelto 2

Un colegio tiene a su disposición para el transporte de sus estudiantes 10 buses. Por información llegada a las directivas del plantel, se sabe que 4 no se encuentran en óptimas condiciones. Si se selecciona una muestra de 5 buses,

a) ¿Cuál es la probabilidad de que dos de ellos no se encuentren en óptimas condiciones?

b) ¿Qué dos de ellos se encuentren en óptimas condiciones?

En los dos ejemplos anteriores, se pueden agilizar los cálculos mediante el uso de la tabla respectiva o la calculadora. Veamos su aplicación en el ejemplo 2

TABLA DE DISTRIBUCION HIPERGEOMETRICA

Caso Propuesto

Un profesor dispone en un archivo de 15 preguntas sobre un tema en específico de la materia; seis de ellas son de teoría. Si desea preparar un cuestionario de 5 preguntas:

a) ¿Cuál es la posibilidad de que 2 de las preguntas sea teoría?

b) ¿Qué 2 no sean teoría?

5. Distribución Binomial

Una distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos al realizar n experimentos independientes entre sí, acerca de una variable aleatoria.

Existen una gran diversidad de experimentos o sucesos que pueden ser caracterizados bajo esta distribución de probabilidad. Imaginemos el lanzamiento de una moneda en el que definimos el suceso “sacar cara” como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a una distribución binomial.

Por lo tanto, la distribución binomial se entiende como una serie de pruebas o ensayos en la que solo podemos tener 2 resultados (éxito o fracaso), siendo el éxito nuestra variable aleatoria.

Propiedades de la Distribución Binomial

Para que una variable aleatoria se considere que sigue una distribución binomial, tiene que cumplir las siguientes propiedades:
En cada ensayo, experimento o prueba solo son posibles dos resultados (éxito o fracaso).
La probabilidad del éxito ha de ser constante. Esta se representa mediante la letra p. La probabilidad de que salga cara al lanzar una moneda es 0,5 y esta es constante dado que la moneda no cambia en cada experimento y las probabilidades de sacar cara es constate.
La probabilidad de fracaso ha de ser también constate. Esta se representa mediante la letra q = 1-p. Es importante fijarse que, mediante esa ecuación, sabiendo p o sabiendo q, podemos obtener la que nos falte.
El resultado obtenido en cada experimento es independiente del anterior. Por lo tanto, lo que ocurra en cada experimento no afecta a los siguientes.
Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2 al mismo tiempo. No se puede ser hombre y mujer al mismo tiempo o que al lanzar una moneda salga cara y cruz al mismo tiempo.
Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los 2 ha de ocurrir. Si no se es hombre, se es mujer y si se lanza una moneda, si no sale cara ha de salir cruz.
La variable aleatoria que sigue una distribución binomial se suele representar como X~(n,p). n representa el número de ensayos o experimentos y p la probabilidad de éxito.
Para que una variable aleatoria se considere que sigue una distribución binomial, tiene que cumplir las siguientes propiedades:
En cada ensayo, experimento o prueba solo son posibles dos resultados (éxito o fracaso).
La probabilidad del éxito ha de ser constante. Esta se representa mediante la letra p. La probabilidad de que salga cara al lanzar una moneda es 0,5 y esta es constante dado que la moneda no cambia en cada experimento y las probabilidades de sacar cara es constate.
La probabilidad de fracaso ha de ser también constate. Esta se representa mediante la letra q = 1-p. Es importante fijarse que, mediante esa ecuación, sabiendo p o sabiendo q, podemos obtener la que nos falte.
El resultado obtenido en cada experimento es independiente del anterior. Por lo tanto, lo que ocurra en cada experimento no afecta a los siguientes.
Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2 al mismo tiempo. No se puede ser hombre y mujer al mismo tiempo o que al lanzar una moneda salga cara y cruz al mismo tiempo.
Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los 2 ha de ocurrir. Si no se es hombre, se es mujer y si se lanza una moneda, si no sale cara ha de salir cruz.
La variable aleatoria que sigue una distribución binomial se suele representar como X~(n,p). n representa el número de ensayos o experimentos y p la probabilidad de éxito.

Formula de la Distribución Binomial

La fórmula para calcular la distribución normal es:

Donde:

n = número de ensayos/experimentos

x = número de éxitos

p = probabilidad de éxito

q = probabilidad de fracaso (1-p)

Es importante resaltar que la expresión entre corchetes no es una expresión matricial, sino que es un resultado de una combinatoria sin repetición. Este se obtiene con la siguiente formula:

El signo de exclamación en la expresión anterior, representa el símbolo de factorial.

Caso resuelto:

Ejercicio # 1

Distribución Discreta Binomial

Existe un lote de celulares Samsung J6 el 20% de ellos están defectuosos. Si se toma una muestra de 5 celulares

a) ¿De los 5 celulares cuantos tienen más probabilidad de que estuviesen defectuosos?

c) ¿Sería posible que todos estuvieran defectuosos? ¿Sería un evento muy probable o poco probable?

Caso propuesto:

Ejercicio # 2

Distribución Discreta Binomial

Un jugador de básquet promedio de un equipo nacional, el entrenador calcula que encesta con probabilidad de 55%.

calcula la probabilidad de que al tirar 6 veces enceste.

a) 4 veces

b) todas las veces

c) ninguna vez

Distribución Binomial Negativa

Esta distribución puede considerarse como una extensión o ampliación de la distribución geométrica.

La distribución binomial negativa es un modelo adecuado para tratar aquellos procesos en los que se repite un determinado ensayo o prueba hasta conseguir un número determinado de resultados favorables (por vez primera) .

Es por tanto de gran utilidad para aquellos muestreos que procedan de esta manera. Si el número de resultados favorables buscados fuera 1 estaríamos en el caso de la distribución geométrica.

Está implicada también la existencia de una dicotomía de resultados posibles en cada prueba y la independencia de cada prueba o ensayo, o la reposición de los individuos muestreados.

Proceso experimental del que puede hacerse derivar

Esta distribución o modelo puede hacerse derivar de un proceso experimental puro o de Bernoulli en el que se presenten las siguientes condiciones

El proceso consta de un número no definido de pruebas separadas o separables.

El proceso concluirá cuando se obtenga un determinado número de resultados favorables K

Cada prueba puede dar dos resultados posibles mutuamente excluyentes A y no A
La probabilidad de obtener un resultado A en cada una de las pruebas es p siendo la probabilidad de no A, q. Lo que nos lleva a que p+q=1
Las probabilidades p y q son constantes en todas las pruebas. Todas las pruebas son independientes. Si se trata de un experimento de extracción éste se llevará cabo con devolución del individuo extraído, a no ser que se trate de una población en la que el número de individuos tenga de carácter infinito.
(Derivación de la distribución) Si, en estas circunstancias aleatorizados de forma que la variable aleatoria x sea "el número de pruebas necesarias para conseguir K éxitos o resultados A "; entonces la variable aleatoria x seguirá una distribución binomial negativa con parámetros p y k, será entonces.

La variable aleatoria x podrá tomar sólo valores superiores a k

El suceso del que se trata podría verse como:

o lo que es lo mismo

Dado que las pruebas son independientes y conocemos que P(A)= p y P(no A)= q

que sería la probabilidad de x si el suceso fuera precisamente con los resultados en ese orden. Dado que pueden darse otros órdenes , en concreto

formas u órdenes distintos . La función de cuantía de la distribución binomial negativa quedará como:

Caso propuesto:

Caso N° 1

Un componente electrónico tiene una probabilidad de 0,90 de pasar un control de calidad. (se asume independencia entre los resultados del control de calidad de diferentes componentes electrónicos).

Calcule la probabilidad que sean necesario revisar 5 componentes para obtener que 3 pasen el control de calidad.

SOLUCIÓN

BINOMIAL NEGATIVA		0,04374

Caso propuesto:

Caso N° 2

Una persona que realiza encuestas telefónicas, debe conseguir 3 encuestas completas antes de que si trabajo acabe. Por cada llamada marcada aleatoriamente, existe un 9% de probabilidad de que la persona que conteste, la llamada telefónica complete la encuesta. Cuál es la probabilidad que la tercera encuesta se complete en la décima llamada.

6. Distribución de Poisson

La distribución de poisson se emplea para describir varios procesos, entre otros la distribución de las llamadas telefónicas que llagan a un conmutador, la demanda (necesidades) de servicios en una institución asistencial por parte de los pacientes, los arribos de los camiones y automóviles a la caseta de cobro y el número de accidentes en un cruce. Los ejemplos citados tienen un elemento en común, pueden ser descritos por una variable aleatoria discreta que asume valores enteros (0,1,2,3,4,5 y así sucesivamente).

La distribución de poisson se llama así en honor a simeón dennis poisson (1781-1840), francés que desarrolló esta distribución basándose en estudios efectuados en la última parte de su vida.

El número de enfermos que llegan a un consultorio en cierto intervalo de tiempo será de 0,1,2,3,4,5 o algún otro número entero. De manera análoga, si se cuenta el número de automóviles que llegan a una caseta de cobro durante un periodo de diez minutos, el número será entero.

Características de los procesos que producen una distribución de la probabilidad de poisson

El número de vehículos que pasan por una caseta de cobro en las horas de mayor tráfico sirve como ejemplo para mostrar las características de una distribución de probabilidad de poisson.

El promedio (media) de los arribos de vehículos por hora de gran tráfico puede estimarse a partir de los datos anteriores del tráfico.

Si dividimos las horas de gran tráfico en periodos (intervalos) de un segundo cada uno, encontraremos que los siguientes enunciados son verdaderos:

· La probabilidad de que exactamente un vehículo llegue por segundo a una caseta individual es un número muy pequeño y es constante para que cada intervalo de un segundo.

· La probabilidad de que dos o más vehículos lleguen en un intervalo de un segundo es tan reducida que podemos asignarle un valor cero.

· El número de vehículos que llegan en determinado intervalo de un segundo es independiente del momento en que el intervalo de un segundo ocurre durante la hora de gran tráfico.

· El número de llegadas en cualquier intervalo de un segundo no depende del número de arribos de cualquier otro intervalo de un segundo.

· Ahora bien, podemos generalizar partiendo de las cuatro condiciones que hemos descrito en este ejemplo, si estas condiciones se cumplen nos apoyaremos en una distribución de probabilidad de Poisson para describirlos.

La distribución de poisson, según hemos señalado, se refiere a ciertos procesos que pueden ser descritos con una variable aleatoria discreta. La letra x suele representar esa variable y puede además asumir valores enteros (0,1,2,3 etc..) . Utilizamos la letra x mayúscula para representar la variable aleatoria y la x minúscula para designar un valor específico que puede asumir la x mayúscula. La probabilidad de exactamente x ocurrencias en una distribución de poisson se calcula mediante la fórmula:

P(x) = l x * e-l / x!

L x = lambda

(número medio de ocurrencias por intervalo de tiempo) elevada a la potencia x.

E-l = e= 2.71828 elevado a la potencia de lambda negativa.

X! = x factorial.

Ejercicio # 1

Distribución Discreta de Poisson

En el cruce de la Av. de las Américas ocurre de manera aleatoria en promedio dos accidentes de tránsito por semana.

a) Determine la probabilidad que existe de que ocurran 3 accidentes de tránsito por semana.

b) determine la probabilidad que existe de que ocurran a mucho 5 accidentes de tránsito por semana.

Solución Del Ejercicio:

a) la probabilidad de que ocurran 3 accidentes de tránsito a la semana es de 13,53%

b) la probabilidad de que ocurran al menos 5 accidentes de tránsito a la semana es de 98,34%

Caso propuesto:

Ejercicio # 2

Distribución Discreta de Poisson

Una compañía de Seguros tiene 5,000 asegurados de 42 años de edad.

Estudios actuales indican que la probabilidad de que un hombre de 42 años muera es de 0.001

¿Cuál es la probabilidad de que la compañía pague 4 indemnizaciones al año?

7. Distribución “F” Fisher

Definición.

Sean U y V dos variables aleatorias independientes tal que:

Sea una variable X definida como:

X así definida sigue una distribución F de Fisher, de m y n grados de libertad que se representa como:

Función de densidad de una F se obtiene a partir de la función de densidad conjunta de U y V, se expresa de esta manera:

Media y Varianza

La media existe si “n” es mayor o igual que 3, y la varianza existe si “n” es mayor o igual que 5.

Están dadas por:

Función de distribución, uso de tablas.

La función de distribución se tendrá que calcular mediante la expresión general.

Propiedad

La inversa de una variable aleatoria con distribución F(m,n) sigue también una distribución F con “n” y “m” grados de libertad. Es decir:

Como consecuencia de lo anterior se cumple que:

Ejemplo 1
Localizar los valores de F, utilizando la tabla respectiva, dependiendo del nivel de significación

Se comparan dos métodos para realizar cierta operación. Supongamos que los resultados obtenidos en las dos muestras fueron: (x ) ̅

8. Chi-cuadrado

Una medida muy extendida para medir la dependencia e independencia, es el estadístico Chi-cuadrado, que da una medida de la diferencia entre las frecuencias observadas en la tabla y las “frecuencias esperadas en caso de independencia”. Recordamos el cálculo de dichas frecuencias esperadas e_ij:

Con el estadístico Chi-cuadrado se obtiene una medida de diferencia entre las frecuencias esperadas y las frecuencias observadas. El estadístico se calcula en la forma siguiente:

Observamos las siguientes propiedades de este estadístico:

Si todas las frecuencias observadas son iguales a la correspondiente frecuencia esperada,

entonces :

Esto ocurre sólo cuando las dos variables de la tabla son independientes; Por tanto, si hay independencia entre las dos variables de la tabla,

Cuanto mayor sea la diferencia entre las frecuencias observadas y esperadas en la tabla, el valor de Chi cuadrado será mayor. Es decir, a mayor intensidad de la asociación entre las variables, Chi-cuadrado será mayor.
El valor de Chi-cuadrado siempre es positivo o cero (pues es suma de números positivos, ya que los denominadores de la suma son todos positivos al ser suma de números elevados al cuadrado.
En general, a mayor número de sumandos, se obtendrá un valor mayor.

Los grados de libertad de un estadístico calculado sobre un conjunto datos se refieren al número de cantidades independientes que se necesitan en su cálculo, menos el número de restricciones que ligan a las observaciones y el estadístico. El número de grados de libertad del estadístico Chi-cuadrado se calcula de la siguiente forma:

Se calcula, en primer lugar el número de sumandos, es decir m x n, siendo n y m el número de filas y número de columnas en la tabla.

A esta cantidad se debe restar el número de restricciones impuestas a las frecuencias observadas. Observamos que podemos cambiar todas las frecuencias de la tabla sin cambiar los totales por filas y columnas, excepto los datos en la última fila y la última columna de la tabla, pues una vez que fijemos todos los valores excepto estos, quedan automáticamente fijados. Por tanto, si la tabla tiene m filas y n columnas, el número de grados de libertad es (m-1) x (n-1). Expresamos esta dependencia en la siguiente forma:

Caso 1:

Supervivencia en el Titanic

El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad. La tabla 3.1 muestra la distribución de pasajeros, según supervivencia y clase social

Calculemos en el ejemplo las frecuencias esperadas en caso de independencia. Observamos que, una vez calculados los datos de la primera columna, los de la segunda se deducen automáticamente (es decir no son libres). Lo mismo ocurre con la última fila, una vez calculadas las dos primeras, queda automáticamente fijada. Por tanto los grados de libertad son (3-1)x(2-1)=2=k (denotamos como k. los grados de libertad)

En la tabla 3.2 mostramos las frecuencias esperadas en caso de independencia. Observamos que los grados de libertad son sólo 2, pues una vez calculadas una frecuencia esperada en la primera fila y otra en la segunda, las demás se deducen automáticamente, si no queremos variar los totales de filas y columnas.

Observamos, al comparar las tablas 3.1 y 3.2 que en primer clase hay mayor frecuencia observada que la esperada de supervivencia si no hubiese relación entre supervivencia y clase social. Mientras en segunda clase hay unos pocos más de lo esperado y en tercera casi la mitad de lo esperado. ¡El salvamento no fue entonces equitativo! A continuación llevamos a cabo los cálculos del estadístico Chi- cuadrado:

Los grados de libertad, en este caso son k= (3-1)x(2-1) = 2.

En la figura 3.1 mostramos la forma que toma el estadístico Chi-cuadrado, en caso de variables independientes, para diverso número de grados de libertad. Como hemos indicado, a mayor número de grados de libertad el valor será mayor. Así, para 4 grados de libertad la moda (valor más probable) se sitúa cerca del valor 5, mientras que para 32 grados de libertad se sitúa cerca de 39.

El valor obtenido 174,4 es muy poco probable en caso de independencia, pues observamos que para 2 grados de libertad los valores mayores que 10 apenas aparece. De hecho la probabilidad de obtener un valor mayor que 10,6 es sólo 0,005. Deducimos que el salvamento de los viajeros en el Titanic no fue independiente de su clase social.

Contraste de independencia

En el ejemplo 3.1 hemos llevado a cabo un contraste de independencia Chi-cuadrado, que nos permite determinar si existe una relación entre dos variables categóricas.

Recordarás que un contraste de hipótesis es un procedimiento estadístico, con una serie de pasos que lleva a la aceptación o rechazo de una hipótesis estadística. Los pasos a realizar en un contraste de hipótesis son los siguientes:

Fijar las hipótesis que se quieren contrastar: La hipótesis nula H0 y la hipótesis alternativa H1. Estas hipótesis son complementarias una de otra.

Fijar el nivel de significación, o probabilidad máxima de rechazar la hipótesis nula H0, en caso de que sea cierta. Recordemos que el nivel de significación α es la probabilidad de Error Tipo I (probabilidad de rechazar la hipótesis nula, cuando de hecho es cierta).

Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. Formación a partir del estadístico de una regla de decisión, dividiendo los posibles valores del estadístico en dos regiones: (a) Si el estadístico cae en la región crítica (o de rechazo), se rechaza la hipótesis nula; (b) si el estadístico cae en la región de aceptación, no se puede rechazar la hipótesis nula.

Se comprueba el valor del estadístico y se toma la decisión de rechazar o no la hipótesis.

En el contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia están o no asociadas. Siguiendo los pasos anteriores, se tendría:

1. Fijar las hipótesis que se quieren contrastar. Estas hipótesis son las siguientes:
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociación entre las filas y columnas de la tabla

2. Fijamos el nivel de significación; lo más usual es elegir un valor α=0,05. Esto quiere decir que la probabilidad máxima que fijamos para el error tipo I (rechazar la hipótesis de independencia cuando sea falsa) es 0,05. Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. En este caso, elegimos el estadístico Chi cuadrado,

, que tiene relación con la hipótesis nula, pues se basa en la comparación de frecuencias observadas y frecuencias esperadas en caso de independencia. Si la hipótesis nula H₀es cierta (hay independencia entre filas y columnas) es de esperar un valor del Chi cuadrado será pequeño y si, por el contrario es falsa, será grande. Formaremos una regla decisión, dividiendo los posibles valores de Chi- cuadrado en dos regiones:

• Si el valor calculado,

, tiene una probabilidad menor que

(nivel de significación) rechazamos la hipótesis nula H₀ (hay independencia entre filas y columnas), pues el valor obtenido es improbable para una tabla con filas y columnas independientes. En este caso, suponemos que las variables están asociadas.

• Si el valor calculado

tiene una probabilidad igual o mayor que

(nivel de significación) no podemos rechazar la hipótesis nula H₀. En este caso no tomamos ninguna decisión.

Nota: Observamos que el rechazo de la hipótesis nula tiene más fuerza que su aceptación, pues nos basamos en una situación muy poco probable: De ser cierta la independencia de las variables es muy poco probable obtener un alto valor de Chi- cuadrado. Por tanto, si obtenemos un alto valor de Chi-cuadrado, rechazamos que la hipótesis sea cierta.

Pero un valor pequeño de Chi cuadrado puede ser debido a varias causas: Puede ser que las variables sean independientes; puede ser que estén asociadas, pero la asociación sea muy pequeña; o puede ser que el tamaño de la muestra de datos sea pequeño y no permita ver la asociación. En este caso (cuando no podemos rechazar la hipótesis nula) tendríamos que estudiar mejor los datos para ver por qué se obtiene este valor pequeño de Chi- cuadrado.

Caso 2

Deporte y bienestar

Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuación.

Contraste la hipótesis de independencia entre bienestar y práctica de deporte (alfa = 0,01).

Primero calculamos las frecuencias esperadas en caso de independencia:

Posteriormente calculamos el estadístico Chi-cuadrado:

Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor 8,13 o mayor con 1 grado de libertad es p = 0,004. Por tanto el valor es estadísticamente significativo, pues es menor que 0,01.

La decisión que se debe tomar es rechazar la hipótesis de independencia entre bienestar y práctica deportiva.

Contraste de homogeneidad

Otro caso en que usamos una tabla de contingencia es aquél en que se dispone de una población X clasificada en r subpoblaciones x₁, x₂,...,x_r. En cada una de estas poblaciones se toma una muestra, y los individuos de la misma se clasifican según una variable Y que puede tomar m valores posibles y₁, y₂.....y_m. Sea p_ij la proporción de individuos que, en la población x_i tiene como valor de Y=y_j.

Un contraste de homogeneidad es cuando se desean contrastar las dos hipótesis siguientes:

• H₀:p_1j= p_2j = ...... = p_mj para todo j; dicho de otro modo, todas las subpoblaciones tienen idéntica distribución para la variable Y.

• H₁: algunas de estas proporciones son diferentes. Dicho de otro modo, la distribución de la variable Y en alguna de estas subpoblaciones es diferente

El principal objetivo de realizar este contraste es comprobar que las distribuciones de todas las subpoblaciones son iguales o si hay alguna que difiere. Esto nos resulta práctico para poder combinar los resultados de todas las subpoblaciones, pues es necesario asegurarse de que los datos de las distintas muestras que se pretende agrupar son homogéneos.

Caso 3

Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria de cada una de ellas, obteniéndose los siguientes datos ¿Qué decisión se debe tomar?

Calculamos las frecuencias esperadas:

Posteriormente calculamos:

Los grados de libertad son: (n-1) x (m-1) = 1 x 3 = 3

Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor 7,81 o mayor con 3 grado de libertad es p = 0,184. Por tanto el valor es no estadísticamente significativo, pues es mayor que 0,01. Aceptamos la hipótesis de homogeneidad de grupos sanguíneos en las dos muestras.

Interpretación y cálculo del p valor

El p-valor se puede interpretar de dos maneras diferentes:

La probabilidad de rechazar la hipótesis nula cuando en verdad es cierta.

La probabilidad de obtener un valor del estadístico igual o mayor al dado, cuando la hipótesis nula es cierta.

Esto significa en el caso de un contraste de independencia:

Un valor cercano a p=0, indicaría un valor muy improbable de Chi-cuadrado si la hipótesis nula es cierta; por tanto llevaría a rechazar la hipótesis de independencia

Un valor cercano a p=1, indicaría un valor muy probable de Chi-cuadrado si la hipótesis nula es cierta; por tanto no rechazaríamos la hipótesis de independencia

Cálculo del p valor:

Esto significa en el caso de un contraste de independencia:
Primero: los grados de libertad, gl= (filas-1) x (columnas-1).
Segundo: te sitúas en esos grados de libertad en la tabla (fila).
Tercero: buscas el valor de Chi- cuadrado de tu caso en la fila del segundo paso.
Cuarto: cuando lo sitúes, el valor de p será el que se indica en la parte superior de esa columna.

Por ejemplo, en el caso de grados de libertad = 1 y el valor del test sea 7,88, p=0,005.

Nota: Cuanto más alto es el valor de Chi cuadrado, más bajo es p-valor

Condiciones de aplicación de Chi- cuadrado

• Observa que al estudiar el valor de Chi-cuadrado en la tabla de la distribución, obtenemos siempre un valor positivo. Es decir, siempre hacemos un contraste unilateral.

• Si las frecuencias esperadas en las celdas son muy pequeñas, puesto que en la fórmula

, aparecen dividiendo, se obtendría un valor alto de Chi-cuadrado, aunque las diferencias entre frecuencias observadas y esperadas fuese grande. Por eso, se recomienda que se use una muestra de suficiente tamaño. Estas son dos recomendaciones importantes

- Como máximo el 20% de las frecuencias esperadas pueden ser menores que el valor 5.
- No debe usarse si hay frecuencias esperadas inferiores a 1.

Ejercicio Propuesto:

Inmigración.

Se desea estudiar hasta qué punto existe relación entre el tiempo de residencia de inmigrantes en nuestro país y su percepción de integración. Se dispone de una muestra pequeña de 230 inmigrantes a los que se les evaluó en ambas variables obteniéndose la siguiente tabla de frecuencias observadas. ¿Confirman estos datos la hipótesis planteada con un nivel de confianza del 95%?

Proyecto de Blog

lunes, 24 de junio de 2019

UNIDAD 1: PRUEBAS DE HIPÓTESIS PARALELO 5-7 CI 2019-2020

2. Distribución Normal Z

3. Distribución “t” de Student

4. Distribución Hipergeometrica

5. Distribución Binomial

Distribución Binomial Negativa

6. Distribución de Poisson

7. Distribución “F” Fisher

8. Chi-cuadrado

Estadísticas II