domingo, 29 de julio de 2018

CORTE II; Moda, Mediana, Media, Rango Diagrma Tallo y Hoja; Diagrama de la Caja

Media, moda, mediana, rango


La estadística más usada es el promedio, yhay tres formas de medirlo: la media, la mediana y la moda.
¿Por qué tres? Buena pregunta. Cada una te dará una forma diferente de ver los datos; dependiendo de la pregunta que quieras responder (o el argumento que quieras defender), cualquiera de las tres podría probar algo.
La media es la medida más usada para encontrar el promedio. De hecho, la gente siempre utiliza la palabra "promedio" para referirse a la "media." Encontrarla es simple: solo suma todos los números en los datos y divídelos por la cantidad de números.

La mediana es el número del medio en un grupo de datos. Sin embargo, los datos deben estar ordenados numéricamente (de mayor a menor o de menor a mayor) antes de encontrar este promedio. Si el número del medio está entre dos números, entonces encuentra la media entre esos dos (súmalos y divídelos entre 2).

Mediana: el número del medio en un grupo de datos.

La moda es probablemente la forma menos común de encontrar el promedio, y en la mayoría de los casos es la menos útil. Para encontrar la moda, solo encuentra el número que más se repite. Puede haber más de una moda, o ninguna.

Moda = número que más se repite.

Finalmente tenemos el rango. El rango NO es una medida de promedio; sin embargo, a menudo se utiliza como el promedio, porque es otra manera de medir un grupo de datos. El rango mide la "extensión" de los datos, qué tan alejados se encuentran el menor del mayor. Para encontrar el rango, resta el valor más pequeño del más grande.

Rango = valor más pequeño – valor más grande

Pero todo esto tendrá mucho más sentido si vemos algunos ejemplos. En nuestra encuesta de redes sociales, encontramos la mediana, la media y el rango de tiempo que cada grupo pasa en las páginas sociales por día.
Tiempo dedicado a las redes sociales (horas/día)ChicasChicos
Media2.201.01
Mediana2.170.98
Rango3.751.88
Como lo habíamos dicho, en promedio las chicas pasan al menos una hora más al día en estas páginas que los chicos. Tanto la media como la mediana para las chicas fue significativamente mayor a las de los chicos.

La puntuación de esta semana de "Mejores estudiantes de la Santiago"

Aquí tenemos la puntuación que los participantes de la materia Estadistica obtuvieron esta semana:
Hernandez52
Perez50
Escalona47
Rojas44
Salazar39
Barico38
Alvarado36
Salas32
Ahora encontremos los tres promedios y el rango para las puntuaciones de los concursantes.
EstadísticaCómo encontrarlaExplicación
MediaSuma las puntuaciones y divídelas entre 8, el número total de concursantes. La media es 42.25.
Mediana
Primero ordena las puntuaciones, y después encuentra el valor del medio. En este grupo, el valor medio está entre 44 y 39, así que sumamos estos dos y los dividimos entre 2.
ModaNo tiene moda.No hay ninguna puntuación que ocurra varias veces, así que no hay moda para este grupo de datos.
Rango52 – 32 = 20Resta el más pequeño del más grande. El rango es 20 puntos.
Para este grupo de datos, solo hay dos medidas de promedio (no hay moda). Tanto la media como la mediana podrían usarse para describir el promedio. Si fueras Evan, ¿preferirías usar la media o la mediana? ¿Y si fueras Kate?
Cuidado: el rango de un grupo de datos NO mide el promedio de los datos.

DIAGRAMA DE TALLO Y HOJAS


Diagrama de tallo y hojas

Los diagramas de tallo y hojas se utilizan para analizar y exponer datos al mismo tiempo. Es una forma de relacionar los datos con otras variables.
Si volteas un diagrama de tallo y hoja, te queda algo como un histograma 

Para hacer un diagrama de tallo y hojas, debes crear el "tallo" escribiendo los dígitos que representen los valores posicionales más grandes a la izquierda de una línea vertical. A la derecha, escribe los dígitos que sobren para crear las "hojas." Sí, suena abstracto. 
Ejemplo.
Estas son las notas acumuladas de Estadistica :
90, 94, 53, 68, 79, 84, 87, 72, 70, 69, 65, 89, 85, 83, 72
El valor posicional más grande de todos los datos son las decenas. Estos dígitos serán nuestros tallos. Los escribimos de mayor a menor o de menor a mayor (de ambas formas funciona).
Ahora colocamos los demás dígitos de cada dato en la columna "Hojas." Por ejemplo, para trazar el valor 84, colocamos el 4 a la derecha del número 8. Allí también colocaremos todos los dígitos faltantes de los que obtuvieron una puntuación en los ochenta (si obtuviste 87, el 7 irá al lado del 4, si obtuviste 89, el 9 irá al lado del 7, y así sucesivamente).
Ahora arreglamos los números para que cada fila quede en orden numérico (de menor a mayor).
El diagrama de tallo y hoja es una forma conveniente de ver los datos en bruto. Usando este diagrama podemos ver que la mayoría de los estudiantes obtuvieron entre 70 y 80 puntos, y solo un estudiante sacó menos de 65.

Diagramas de caja

Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles, cada uno con igual cantidad de valores. El diagrama de caja no grafica frecuencia ni muestra las estadísticas individuales, pero en ellos podemos ver claramente dónde se encuentra la mitad de los datos. Es un buen diagrama para analizar la asimetría en los datos.
A continuación, te dejamos algunas palabras que debes tener en cuenta cuando graficas diagramas de caja:
  • Q1 – Cuartil 1, la mediana de la mitad menor de los datos.
     
  • Q2 – Cuartil 2, la mediana de todos los datos.
     
  • Q3 – Cuartil 3, la mediana de la mitad mayor de los datos.
     
  • IQR – Rango intercuartil, la diferencia entre Q3 y Q1.
     
  • Valores extremos – Los valores más pequeños y los más grandes de los datos.

Comencemos haciendo un diagrama de caja de la puntuación en la evaluacion del corte 1 y 2 de la materia Estadistica I:

90, 94, 53, 68, 79, 84, 87, 72, 70, 69, 65, 89, 85, 83, 72
Paso 1: ordena los datos de menor a mayor.
53 65 68 69 70 72 79 83 84 85 87 89 90 94
Paso 2: encuentra la mediana de los datos.
Llamado también cuartil 2 (Q2).
Paso 3: encuentra la mediana de los datos menores que Q2.
Este sería el cuartil menor (Q1).
Paso 4: encuentra la mediana de la data mayor que Q2.
Este sería el cuartil mayor (Q3).
Paso 5: encuentra los valores extremos.
Estos serían los valores más grandes y más pequeños.
Valores extremos = 53 y 94.
Paso 6: crea una recta real que contenga todos los datos.
Deja que se extienda un poco más allá de los valores extremos.
Paso 7: dibuja una caja de Q1 a Q3 divididas por una recta en Q2. Luego extiende los "bigotes" por cada lado de la caja hacia los valores extremos.
Esta gráfica está dividida en cuatro grupos distintos: el bigote menor, la mitad menor de la caja, la mitad mayor de la caja y el bigote mayor (el bigote mayor no se refiere a Jorge Negrete). Como en cada grupo hay una misma cantidad de datos, cada sección representa el 25% de los mismos.
A través de este diagrama vemos que el 50% de los estudiantes obtuvo entre 69 y 87 puntos, el 75% de los estudiantes obtuvo menos de 87 puntos y el 50% obtuvo más de 79. Si tu puntuación estuvo en el bigote mayor, siéntete orgulloso de ti mismo, ya que sacaste mejor nota que el 75% de tus compañeros. Si por el contrario, tu nota estuvo en el bigote menor, quizás tengas que estudiar un poco más.

Valores atípicos

Los valores atípicos son aquellos mucho más grandes o mucho más pequeños que el resto de los datos. Se representan con un punto en cualquier extremo del diagrama. En nuestro ejemplo no hubo ningún valor atípico; y aunque 53 parece ser mucho más pequeño que el resto, en realidad no fue lo suficientemente pequeño.
Para ser considerado un valor atípico, el valor debe ser:
  • mayor que Q3 por, al menos, 1.5 veces el rango intercuartil (IQR), ó
     
  • menor que Q1 por, al menos, 1.5 veces el IQR.
Los valores atípicos son aquellos que:
1.5(IQR) > Q3
1.5(IQR) < Q1
A continuación, te presentamos los resultados individuales finales de salto de esquí masculino de los Juegos Olímpicos de invierno.
283.6269.4262.2261.1246.7
245.5239.2233.7230.3227.9
226.4225.5224.1223.6222.3
221.4217.8217.2216.9211.6
211.4208.5204.9202.7202.4
200.5198.5182.4111
Los cuartiles quedan así: Q1 sería 208.5, Q2 sería 222.3 y Q3 sería 236.45. La puntuación más baja (111) parece ser un valor atípico, ya que es mucho más pequeña que el resto de los datos. Sin embargo, no podemos estar seguros hasta que saquemos las cuentas.
Primero debemos calcular el IQR, que es Q3 – Q1. Luego lo multiplicamos por 1.5 para obtener el número que necesitamos para saber si hay algún valor atípico.
IQR = 236.45 – 208.50 = 27.95
1.5(IQR) = 1.5(27.95) = 41.93
208.5 – 41.93 = 166.57
Para que el número en cuestión (111) califique como un valor atípico, debe ser menor a 166.57, que es la diferencia entre Q1 (208.5) y 41.93.
¡Sí, es! Como 111 es menor a 166.57, entonces declaramos oficialmente a 111 como un valor atípico. Al hacer el diagrama de caja, representamos a 111 con un punto y extendemos el bigote menor solo hasta el siguiente valor menor (que sería 182.4).
Quizá deberíamos verificar que no haya ningún valor atípico hacia la mitad mayor de los datos.
236.45 + 41.93 = 278.38
Hay un valor cerca de 278.38, así que éste también es un valor atípico.

domingo, 22 de julio de 2018

CORTE I: EJERCICIOS RESUELTOS VARIABLES

Ejercicios de estadística resueltos paso a paso

PARA APRENDER DALE CLIP --> EJERCICIOS
1Indica que variables son cualitativas y cuales cuantitativas:
1Comida Favorita.
2Profesión que te gusta.
3Número de goles marcados por tu equipo favorito en la última temporada.
4Número de alumnos de tu Instituto.
5El color de los ojos de tus compañeros de clase.
6Coeficiente intelectual de tus compañeros de clase.
2De las siguientes variables indica cuáles son discretas y cuales continuas.
1Número de acciones vendidas cada día en la Bolsa.
2Temperaturas registradas cada hora en un observatorio.
3Período de duración de un automóvil.
4El diámetro de las ruedas de varios coches.
5Número de hijos de 50 familias.
6Censo anual de los españoles.
3Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas.
1La nacionalidad de una persona.
2Número de litros de agua contenidos en un depósito.
3Número de libros en un estante de librería.
4Suma de puntos tenidos en el lanzamiento de un par de dados.
5La profesión de una persona.
6El área de las distintas baldosas de un edificio.
4Las puntuaciones obtenidas por un grupo en una prueba han sido:
15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
Construir la tabla de distribución de frecuencias y dibuja el polígono de frecuencias.
5El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1.
Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
6Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
7Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
Pesofi
[50, 60)8
[60, 70)10
[70, 80)16
[80,90)14
[90, 100)10
[100, 110)5
[110, 120)2
1Construir la tabla de frecuencias.
2Representar el histograma y el polígono de frecuencias.
8Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1Construir la tabla de frecuencias.
2Dibujar el histograma y el polígono de frecuencias.
9Sea una distribución estadística que viene dada por la siguiente tabla:
xifi
615
6418
6742
7027
738
Calcular:
1La moda, mediana y media.
2El rango, desviación media, varianza y desviación típica.
10Calcular la media, la mediana y la moda de la siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.
11Hallar la varianza y la desviación típica de la siguiente serie de datos:
12, 6, 7, 3, 15, 10, 18, 5.
12Hallar la media, mediana y moda de la siguiente serie de números:
3, 5, 2, 6, 5, 9, 5, 2, 8, 6.
13Hallar la desviación media, la varianza y la desviación típica de la series de números siguientes:
2, 3, 6, 8, 11.
12, 6, 7, 3, 15, 10, 18, 5.
14Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla:
fi
[38, 44)7
[44, 50)8
[50, 56)15
[56, 62)25
[62, 68)18
[68, 74)9
[74, 80)6
Dibujar el histograma y el polígono de frecuencias acumuladas.
15Dadas las series estadísticas:
3, 5, 2, 7, 6, 4, 9.
3, 5, 2, 7, 6, 4, 9, 1.
Calcular:
1La moda, la mediana y la media.
2La desviación media, la varianza y la desviación típica.
3Los cuartiles 1º y 3º.
4Los deciles 2º y 7º.
5Los percentiles 32 y 85.
16Una distribución estadística viene dada por la siguiente tabla:
fi
[10, 15)3
[15, 20)5
[20, 25)7
[25, 30)4
[30, 35)2
Hallar:
1La moda, mediana y media.
2El rangodesviación media y varianza.
3Los cuartiles 1º y 3º.
4Los deciles 3º y 6º.
5Los percentiles 30 y 70.

17Dada la distribución estadística:
fi
[0, 5)3
[5, 10)4
[10, 15)7
[15, 20)8
[20, 25)2
[25, ∞)6
Calcular:
Hallar:
1La mediana y moda.
2Cuartil 2º y 3º.
3Media.
Dada la distribución estadística:
fi
[0, 5)3
[5, 10)5
[10, 15)7
[15, 20)8
[20, 25)2
[25, ∞)6

Calcular:
La mediana y moda.
Cuartil 2º y 3º.
Media.
xifiFi
[0, 5)2.533
[5, 10)7.558
[10, 15)12.5715
[15, 20)17.5823
[20, 25)22.5225
[25, ∞)631
31

Moda

moda

Mediana

mediana

Cuartiles

cuartiles
cuartiles

Media

No se puede calcular la media, porque no se puede hallar la marca de clase del último intervalo.

sábado, 14 de julio de 2018

CORTE II: MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN


UNIDAD IVMEDIDAS DE TENDENCIA CENTRAL,POSICIÓN  Y DE DISPERSIÓN


-     Concepto e importancia de las medidas de tendencia central.                                
-     Tipos de promedios: matemáticos y estadísticos.         
-     Cálculo y aplicación de la media aritmética, promedio geométrico, la moda y la mediana.
-     Cálculo a partir de series simples y agrupadas de las medidas de dispersión


Cálculo  y aplicación a partir de series numéricas las medidas de posición

REVISA EL SIGUIENTE VIDEO: 

1. https://www.youtube.com/watch?v=82Y4Lpzfa60

2. https://www.youtube.com/watch?v=1myBo87lYyU


Y EL SIGUIENTE ENLACE




Propósito de las medidas de tendencia central: 
Supóngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificación por sí misma tiene muy poco significado a menos que usted conozca cuál es el total de puntos que obtiene una persona promedio al participar en esa prueba, cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones. Es decir que para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos. 
Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. Digamos por ejemplo que la calificación promedio en la prueba que hizo Pedro fue de 20 puntos. De ser así podemos decir que la calificación de Pedro se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 60 puntos, entonces la conclusión sería muy diferente, dado que se ubicaría muy por debajo del promedio de la clase. 
En resumen, el propósito de la medidas de tendencia central son: 
● Mostrar en qué lugar se ubica la persona promedio o típica del grupo. Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico. 
● Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. 
● Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos. 

Enumeración de las medidas de tendencia central. 
Las medidas de tendencia central más comunes son: 
La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de una letra M en otros casos por una X con una línea en la parte superior. 

La mediana: la cual es el puntaje que es ubica en el centro de una distribución. Se representa como Md. 

La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo. 

Rango Medio es la media de las observaciones menor y mayor. como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posición, pero ofrece un valor adecuado, rápido y sencillo para resumir al conjunto de datos. 

De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil de las medidas de tendencia central. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dada la características de la media, esta es efectada por los valores extremos. Se puede optar por no tomar en cuenta tales valores extremos y excluirlos de la observación, si se considera indispensable utilizar la media). 

La media es considerada como la mejor medida de tendencia central, por las siguientes razones: 
● Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
● Es la medida de tendencia central más conocida y utilizada. Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian. 
● La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos

Cómo calcular la mediana, la media y la moda. 
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, una vez el valor resultante corresponde al número del caso que representa la mediana de la distribución. En muchas ocasiones, los casos son tan numerosos que no se pueden ordenar uno tras otro sino que se agrupan por frecuencia de ocurrencia en cada valor o por intervalos de clase cuando el margen (rango) de posibles valores de la variable es muy amplio. En estos casos el proceso es un poco más complejo y requiere de la utilización de una fórmula en la que se toma en cuenta el intervalo de clase, los límites reales y el punto medio. Para calcular la media aritmética de un conjunto de datos, se suma (Σ ) cada uno de los valores (X) y se divide entre el total de casos (N). La moda se identifica al observar el valor que se presenta con más frecuencia en la distribución. Ejemplo:

X
23
21
18
17
15
14
14
12
9
7
Ʃ X= 150

Media = M = X = promedio = Σ X / N = 150/10 = 15 

Mediana = Md. = Puntaje medio = 1/2 (N+1) hacia arriba = 1/2 (10 + 1) hacia arriba = 5 

Moda = Mo = el valor que se repite un mayor número de veces = 14 

Prácticas en clase
Encuentre el valor de la media, mediana y moda de las siguientes agrupaciones de datos.

X1 X2 X3
25 35 46
21 18 18
21 30 25
18 23 30
27 28 37
14 23 42
14 28 37
17 25 39
17 29 42
11 30 35
10 18 29

Cómo encontrar el promedio de diferentes medias. 
Sumar el producto del número de casos en cada media (grupo) por su media y dividiéndolo por total de casos que constituyen los grupos. 

Gran media = N1 (M1) + N2 (M2) + N3 (M3) / N1 + N2 + N3


X1 X2 X3
9 8 9
7 6 7
5 5 5
5 5 Ʃ X1= 21
Ʃ X1= 26 2 N3= 3
N1= 4 Ʃ X1= 26 M3= 7
M1= 6.50 N2= 5
M2= 5.20

Procedimiento: 

GM = 4 (6.50) + 5 (5.20) + 3 (7) / 4 + 5 + 3 = 26 + 26 + 21 / 12 = 73 / 12 = 6.083



Ejercicios en clase

X1 X2 X3
12 18 12
10 12 10
8 11 9
6 9 7
7 6
2


X1 X2 X3 X4
58 65 25 41
35 56 21 32
29 52 18 28
15 12 12 19
14 6 17
8 5
3


¿Qué aplicaciones se le puede dar a las Medidas de Tendencia Central y a las Medidas de Dispersión?

¿Cuál es la importancia de estas medidas para la estadística?