Estadistica Basica Sesion 6

Download Report

Transcript Estadistica Basica Sesion 6

Curso de Estadística Básica

SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez

Estadística Básica

Objetivo

Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7)

Estadística Básica

Agenda Sesión 6

• • • •

Datos de dos variables Correlación lineal (Sesión 6) Regresión lineal (Sesión 7) Evaluación (Sesión 7)

Estadística Básica

Casos

• A medida que una persona crece, por lo general aumenta peso?” de peso.

Alguien podría preguntar, “¿existe alguna relación entre la estatura y el • Médicos dedicados a la investigación, prueban fármacos nuevos y obsoletos prescribiendo dosis diferentes en pacientes y observando respuestas. Una de las preguntas sus podría ser, “¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”

Estadística Básica

Datos de dos variables

Estos datos constan de los valores de dos variables respuesta diferentes que se obtienen del mismo elemento de la población.

Cada una puede ser cualitativa o cuantitativa. Como resultado, los datos bivariados pueden formarse mediante tres combinaciones de variable: 1.

2.

3.

Ambas variables son cualitativas (de atributo) Una variable es cualitativa y otra cuantitativa (numérica) Ambas variables son cuantitativas

Estadística Básica

Dos variables cualitativas

Cuando los datos bivariados resultan de dos variables cualitativas, los datos se disponen en

una tabla cruzada

o

de contingencia

.

Género

Masculino Femenino Totales por columna Filosofía y Letras

5 5 Especialización

Administración de Empresas

6 5 10 11

Tecnología

7 2 9

Totales por renglón 18 12 30

Estadística Básica

Ejemplo

Treinta estudiantes de una Universidad fueron identificados y clasificados aleatoriamente según dos variables: • Género (M/F) • Especialización (Filosofía y Letras, Administración de Empresas, Tecnología) A continuación se muestran los datos en la tabla:

Estadística Básica

Nombre

Adams Argento Baker Bennet Brock Brand Chun Crain Cross Ellis Feeney Flanigau Hodge Holmes Jopson

Género Especialización Nombre

M F M F M M F M F F M M F M F FyL AE FyL FyL AE T FyL T FyL FyL T AE AE T T Kee Kleeberg Light Linton Lopez McGowan Mowers Ornt Palmer Pullen Rattan Sherman Small Tate Yamamoto F M M F F M M

Género

M M M F M M F M

Especialización

AE FyL FyL FyL T AE AE T AE T AE AE T AE FyL

Estadística Básica

Tabla cruzada

Estos datos pueden resumirse en una tabla cruzada o de contingencia de 2 x 3 donde se presenta la frecuencia para cada categoría cruzada de las dos variables junto con los totales por denominados renglón

totales

y por columna

marginales

(o

marginales

). El total de los totales marginales es

el gran total

muestra.

y es igual a

n

, el tamaño de la

Estadística Básica

Tabla cruzada

Género

Masculino Femenino Totales por columna Filosofía y Letras

5 5 Especialización

Administración de Empresas

6 5 10 11

Tecnología

7 2 9

Totales por renglón 18 12 30

Estadística Básica

Frecuencias relativas

Las tablas de contingencia a menudo presentan porcentajes (frecuencias relativas).

Estos porcentajes pueden estar basados en toda la muestra o en las clasificaciones submuestra (renglones o columnas).

de la

Estadística Básica

Porcentajes basados en el gran total (toda la muestra)

La tabla de contingencia puede convertirse fácilmente en porcentajes del gran total, al dividir cada frecuencia entre el gran total y multiplicar por 100 el resultado.

Género

Masculino Femenino Totales por columna Filosofía y Letras

17% 17% Especialización

Administración de Empresas

20% 17% 33% 37%

Tecnología

23% 7% 30%

Totales por renglón 60% 40% 100%

Estadística Básica

Porcentajes basados en el gran total

Con la tabla de contingencia porcentajes puede verse expresada en fácilmente que el 60% de la muestra son hombres, 40% mujeres, 30% están especializándose en tecnología, etc.

Porcentajes basados en el gran total

25% 20% 15% 10% 5% 0% Filosofía y Letras Administración de Empresas Tecnología Masculino Femenino

Estadística Básica

Porcentajes basados en los totales por renglón

Los elementos de la misma tabla de contingencia pueden expresarse como porcentajes de los totales por renglón (o género), al dividir cada elemento del renglón entre el total de éste y multiplicar por 100 el resultado.

Género

Masculino Femenino Totales por columna Filosofía y Letras

28% 42% Especialización

Administración de Empresas

33% 42% 33% 37%

Tecnología

39% 17% 30%

Totales por renglón 100% 100% 100%

Estadística Básica

Porcentajes basados en los totales por renglón En la tabla anterior se observa que el 28% de los hombres están especializándose en Filosofía y Letras, mientras que el 42% de las mujeres están especializándose en la misma área.

Porcentajes basados en el género

45% 40% 35% 30% 25% 20% 15% 10% 5% 0% Filosofía y Letras Administración de Empresas Tecnología Masculino Femenino

Estadística Básica

Porcentajes basados en los totales por columna

Los elementos de la tabla de contingencia multiplicar por 100 el resultado.

también pueden expresarse como porcentajes de los totales por columna (o especialización), al dividir cada elemento de la columna entre el total de ésta y Género

Masculino Femenino Totales por columna Filosofía y Letras

50% 50% Especialización

Administración de Empresas

55% 45% 100% 100%

Tecnología

78% 22% 100%

Totales por renglón 60% 40% 100%

Estadística Básica

Porcentajes basados en los totales por columna

Con base en la tabla anterior, se observa que de todos los estudiantes de Filosofía y Letras, la mitad son hombres y la otra mitad son mujeres.

Porcentajes basados en la especialización

90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Filosofía y Letras Administración de Empresas Tecnología Masculino Femenino

Estadística Básica

Una variable cualitativa y otra cuantitativa

Cuando los datos bivariados se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa. Se aplica la estadística descriptiva vista en sesiones anteriores como, la media, varianza, desviación estándar, Q1, mediana, Q3, etc., y los resultados se presentan uno junto al otro para efectos de comparación.

Estadística Básica

Ejemplo

Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un automóvil de 3000 libras que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado.

37 34 38

Diseño A n=6

36 40 32 33 34 38

Diseño B n=6

35 42 34 40 41 40

Diseño C n=6

39 41 43

Estadística Básica

Nota

El diseño de la banda de rodamiento es una variable cualitativa con tres niveles de respuesta y la distancia de frenado es una variable cuantitativa.

La distribución de las distancias de frenado del diseño A, de la banda de rodamiento, debe compararse con las distribuciones de las distancias de frenado de cada uno de los diseños de la banda.

Esta comparación puede efectuarse aplicando técnicas numéricas y gráficas.

Estadística Básica

Resumen de cinco puntos para cada diseño

Máximo Q3 Mediana Q1 Mínimo Media Desviación estándar Diseño A

40 37.8

36.5

34.5

32 36.2

2.9

Diseño B

42 37.3

34.5

34 33 36.0

3.4

Diseño C

43 41 40.5

40 39 40.7

1.4

Estadística Básica

Dos variables cuantitativas

Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos matemáticos suelen expresarse como

pares ordenados

(

x, y

), donde

x

es la independiente) y

variable de entrada

y

(variable dependiente).

es la (variable

variable de salida

En los problemas en que intervienen dos variables cuantitativas, los datos de la muestra se presentan gráficamente en un diagrama de dispersión

Estadística Básica

Diagrama de dispersión

Es la gráfica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados . La variable de entrada,

x

, se grafica en el eje horizontal y la variable de salida, grafica en el eje vertical.

y

, se

Estadística Básica

Ejemplo

En la clase de educación física del señor Torres, se tomaron varios puntajes de condición física. La muestra siguiente es el número de “lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos aleatoriamente: (27,30) (52,40) (22,26) (35,32) (15,25) (55,54) (35,42) (40,50) (30,38) (40,43) En la siguiente tabla se presentan estos datos muestrales y un diagrama de dispersión de los datos

Estadística Básica

Lagartijas (x) Sentadillas (y) 1

27 30

2

22 26

3

15 25

4

35 42

Estudiante 5

30 38

6

52 40 55 45 35 25 15

Clase de educación física del señor Torres

25 35

Lagartijas

45 55

7

35 32

8

55 54

9

40 50

10

40 43

Estadística Básica

Correlación Lineal

El objetivo primordial del intensidad de una análisis de correlación lineal es medir la relación lineal entre dos variables. Se aplica en datos cuantitativos que muestran diferentes relaciones entre variables independientes o de entrada,

x

, y variables dependientes o de salida,

y

. Si a medida que crece en los valores de

y

, se dice que no hay

x

no hay un cambio definido correlación o relación entre

x

y

y

. Si a medida que crece existe una

x

, hay un cambio en los valores de correlación. La correlación es positiva cuando

y y

tiende a , crecer, y es negativa cuando

y

tiende a decrecer. Si los pares ordenados ( una

x, y

) tienden a seguir un patrón de línea recta, se tiene correlación lineal. La precisión del cambio en

y

cuando crece

x

, determina la intensidad de la correlación lineal.

Estadística Básica

Estadística Básica

Coeficiente de correlación lineal

El coeficiente de correlación lineal

r

, es la medida numérica de la intensidad de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la otra. Este valor ayuda a responder a la pregunta ¿Existe una correlación lineal entre las dos variables en consideración? El coeficiente de correlación lineal

, r

, siempre tiene un valor entre -1 y +1. Un valor de +1 significa una correlación positiva perfecta, y un valor de -1 indica una correlación negativa perfecta.

Estadística Básica

Cálculo de

r

El valor de Pearson:

r

está definido por la fórmula producto momento de

r

  (

x

x

)(

y

(

n

 1 )

s x s y

y

)

Donde:

s x

,

s y

Son las desviaciones estándar de las variables x y y

Estadística Básica

Cálculo de

r

El valor de

r

se puede calcular con una equivalente al momento de Pearson como: fórmula alternativa

r

suma

_

de

_

los

_

cuadrados

_

de

_

xy

(

suma

_

de

_

los

_

cuadrados

_

de

_

x

)(

suma

_

de

_

los

_

cuadrados

_

de

_

y

)

r

Donde:

SC

(

x

)  

x

2    2

n SC

(

y

)  

y

2    2

n SC

(

xy

)

SC

(

x

)

SC

(

y

)

SC

(

xy

)  

xy

 

x

y n Estadística Básica

Ejemplo

Encuentre el coeficiente de los datos de correlación lineal para “lagartijas” y “sentadillas” mostrados anteriormente.

Solución: Primero, es necesario, elaborar una tabla de extensiones enumerando todos los pares de valores (x, y) para poder encontrar las extensiones

y 2

,

x 2

,

xy

y así como los totales en cada una de las cinco columnas.

Estadística Básica

Tabla de extensiones

Estudiante Lagartijas (x) 1 2 3 4 5 6 7 8 9 10

Sumatoria

27 22 15 35 30 52 35 55 40 40

351 x2

729 484 225 1225 900 2704 1225 3025 1600 1600

13717 Sentadillas (y)

30 26 25 42 38 40 32 54 50 43

380 y2

900 676 625 1764 1444 1600 1024 2916 2500 1849

15298 xy

810 572 375 1470 1140 2080 1120 2970 2000 1720

14257

Estadística Básica

Cálculos

A continuación se realizan los preliminares, sustituyendo las cinco sumatorias de la tabla de extensiones en sus correspondientes fórmulas:

SC

(

x

)  

x

2    2

n

 13717  ( 351 ) 2 10  1396 .

9

SC

(

y

)  

y

2    2

n

 15298  ( 380 ) 2 10  858 .

0

SC

(

xy

)  

xy

 

x

y n

 14257  ( 351 )( 380 ) 10  919 .

0

Estadística Básica

Cálculo de

r

Finalmente se cuadrados en el del coeficiente de sustituyen cálculo de correlación.

r

las tres sumas de y se obtiene el valor

r

SC

(

xy

)

SC

(

x

)

SC

(

y

)  919 .

0 ( 1396 .

9 )( 858 .

0 )  0 .

8394  0 .

84

Nota: El valor de r suele redondearse a la centésima más próxima

Estadística Básica

Conclusión

El valor del coeficiente de responder a la pregunta: correlación lineal calculado ayuda a “¿existe una correlación lineal entre las dos variables en consideración?”. Cuando el valor calculado de está próximo a cero, se concluye que hay poca correlación lineal o

r

que no hay correlación lineal. A medida que el valor calculado de cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más

r

fuerte entre las dos variables.

Desde el punto de vista gráfico, al calcular una recta describe el diagrama de

r

, se mide qué tan bien dispersión de los pares ordenados. Cuando el valor de de datos que crean un

r

cambia de 0 a +1 ó -1, los puntos patrón se acercan más a una recta.

Estadística Básica

Estimación visual del coeficiente de correlación lineal

El siguiente método para estimar

r

es rápido y en general produce un estimado razonable cuando la “ventana de datos” es aproximadamente cuadrada.

Procedimiento 1.

2.

Coloque dos lápices sobre su diagrama de dispersión.

Manténgalos paralelos y muévalos de modo que estén lo más cerca posible, de modo que todos los puntos del diagrama de dispersión están entre ellos.

Visualice una región rectangular acotada por los dos lápices y que termina de manera justa en los puntos extremos del diagrama de dispersión.

Estadística Básica

Ventana de datos

Estadística Básica

Estimación visual del coeficiente de correlación lineal

3. Estime cuántas veces más largo que ancho es el rectángulo. Una forma fácil de hacerlo es marcar mentalmente cuadrados en el

k

a este número de múltiplos.

rectángulo. Denomine

k

=2.5

Estadística Básica

Estimación visual del coeficiente de correlación lineal

4. El valor de r puede estimarse como:      1

k

   5. El signo de

r

se determina por la posición general del largo de la región rectangular. Si el largo está en posición creciente, r es positivo; si está en posición decreciente,

r

es negativo. Si el rectángulo está en posición horizontal o vertical, entonces r es cero, sin importar la razón del largo al ancho.

Estadística Básica

Estimación de

r

para la relación entre el número de lagartijas y sentadillas

55 45 35 25 15

Clase de educación física del señor Torres

k

=4 25 35

Lagartijas

45 55

Estadística Básica

Cálculo de

r r

  ( 1  1 4 )   0 .

75

Estadística Básica

Coeficientes de correlación lineal

Estadística Básica

Problema

Suponga que la compañía Trigos Excelentes, S.A. le haya pedido a varios de sus representantes regionales trabajar tiempo extra para incrementar las ventas. Usted no está convencido de que el tiempo extra sea necesario, ni que las horas extras estén correlacionadas con el incremento de ventas. La siguiente tabla de datos muestra el número de horas mensuales que los representantes trabajaban anteriormente junto con el promedio de ventas. La tabla de datos también muestra el incremento de horas y las nuevas ventas. Compare el incremento de horas con el incremento de ventas para determinar si están correlacionados.

Estadística Básica

Problema

Estadística Básica