domingo, 5 de agosto de 2018

CORTE III: MEDIDAS DE ASIMETRÍA Y KURTOSIS


MEDIDAS DE  ASIMETRÍA
Y KURTOSIS


Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad degenerar el gráfico. Sus principales medidas son la Asimetría y la Kurtosis.


1. ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.
Ejemplo 
El Coeficiente de asimetría, se representa mediante la ecuación matemática,

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, () la media de la muestra y (ni) la frecuencia de cada valor. 
Los resultados de esta ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media.

Coeficiente de asimetría de Fisher


El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x

Cuanto mayor sea la suma ∑(xix)3, mayor será la asimetría. 

Sea el conjunto X=(x1, x2,…, xN), entonces la fórmula de la asimetría de Fisher es:

Siendo Xi, uno de los datos 0

  • Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media.
  • Si CAF=0: la distribución es simétrica.
  • Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la  media.


Coeficiente de asimetría de Bowley

El coeficiente de asimetría de Bowley CAB toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar. Sea el conjunto X=(x1, x2,…, xN), la asimetría de Bowley es:
Fórmula del coeficiente de asimetría de Bowley
Esta fórmula viene de:
Fórmula del coeficiente de asimetría de Bowley
Recordemos que la mediana (Me) es lo mismo que el segundo cuartil (Q2).
Por lo que la fórmula del coeficiente de asimetría de Bowley también se puede escribir así:
Fórmula 2 del coeficiente de asimetría de Bowley

  • Si CAB<0: la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es menor que al tercero.
  • Si CAB=0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana.
  • Si CAB>0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.

Dibujo de tres distribuciones según el signo del coeficiente de asimetría de Bowley






2. KURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Kurtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
Ejemplo:
Para calcular el coeficiente de Kurtosis se utiliza la ecuación:

Donde (g2) representa el coeficiente de Kurtosis, (Xi) cada uno de los valores, () la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil  encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.



La teoria han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe 





CORTE III: Medidas de posición


Medidas de posición

Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar en tres grandes grupos: Cuartiles, quintiles, deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a una distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.
a - Los Cuartiles (Qn):  son  los  tres  valores  de  la  variable  de  una  distribución que  la  dividen  en  cuatro  partes iguales, es decir, al 25%, 50% y 75%. Para calcular el valor de uno de los cuatro Cuartiles, se utiliza la formula:
 Qk = k (n/4)
En donde:
Qk = Cuartil número 1, 2, 3 ó 4
n = total de datos de la distribución.
Se advierte que la posición del segundo cuartil corresponde a la ubicación de la mediana, es decir que el segundo cuartil será siempre igual a la mediana.
Para calcular los cuartiles (datos no agrupados) debes seguir los siguientes pasos:
1º Se ordenan los datos de menor a mayor.
2º Se determina la posición que ocupa cada cuartil mediante la fórmula: Qk = k (n/4)
Para que te quede más claro:
El primer cuartil (Q1) es el valor de la variable que supera a lo más el 25 % de los datos y es superado por a lo más el 75 % de ellos en la distibución ordenada de menor a mayor.
cuartil_Q1.jpg (204×68)
El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de los datos y es superado por a lo más el 50 % de ellos, es decir, Qcoincide con la mediana.
cuartil_Q2.jpg (204×68)
El tercer cuartil (Q3) es un valor que supera a lo más al 75 % de los datos y es superado por a lo más el 25 % de ellos.
cuartil_Q3.jpg (204×68)
Ejemplos: 
a) Dado el siguiente conjunto de datos: 2 ; 5 ; 9 ; 3 ; 13 ; 10 ; 11 ; 6 ; 7. ¿Cuál es el valor del tercer cuartil?
1° ordenamos los datos de menor a mayor:
2;  3;  5;  6;  7;  9;  10;  11;  13
n= 9
2º Se determina la posición que ocupa cada cuartil mediante la fórmula: Qk = k (n/4)
Q3 = 3 (9 /4)
Q3 = 6,75; En caso de ser un número decimal se aproxima al entero más cercano superior , que sería 7. Este valor indica la posición del cuartil 3.
En nuestro caso el 7° valor sería :
2;  3;  5;  6;  7;  9;  10;  11;  13
Respuesta: el valor del tercer cuartil sería 10
b) Dadas las siguientes tablas de datos. Calcule los cuartiles Q1,Q2,Q3
medidas_posicion.jpg (432×213)
Respuesta:
En la primera serie el número total de datos es n = 70, por lo que:
Q1 → 1(n/4) = 1( 70/4 ) = 17,5 (indica la posición en que se encuentra el Q1)
Q2→ 2 (n/4) = 2 (70/4) = 35  (indica la posición en que se encuentra el Q2)
Q3→  3 (n/4) =3 (70/4) = 52,5 (indica la posición en que se encuentra el Q3)
Y se desprende directamente de la tabla de frecuencias absolutas que:
Q1 = 5, ya que si nos fijamos en la tabla el número 17,5 se encuentra contenido en el número 32 de la tabla.
Q2 = 7, ya que si nos fijamos en la tabla el número 35 se encuentra contenido en el número 52 de la tabla.
Q3 = 10, ya que si nos fijamos en la tabla el número 52,5 se encuentra contenido en el número 66 de la tabla.
En la segunda serie el número total de datos es n = 64, por lo que:
Q1 → 1(n/4) = 1( 64/4 ) = 16
Q2→ 2 (n/4) = 2 (64/4) = 32
Q3→  3 (n/4) =3 (64/4) = 48
Y se desprende directamente de la tabla de frecuencias absolutas que:
Q1 = 5
Q2 = (5+7) / 2 = 6
Q3 = 7
b - Los Deciles: Corresponden a los 9 valores que dividen a estos en 10 partes iguales es decir, al  10%, al 20%... y al 90%. Los Deciles se designan por D1, D2,..., D9
c-  Los percentiles (Pn): son los noventa y nueve valores de la variable de una distribución que la dividen en cien partes iguales es decir, al 1%, al 2%... y al 99% de los datos. Los percentiles se designan por P1, P2,... P99
P50 coincide con la mediana.
El percentil p (Ppes un valor de la variable tal que el p% de la muestra está por debajo y el (100p) % está sobre.
Al tener una tabla de frecuencias, el percentil de orden K (Pk) se calcula siguiendo los siguientes pasos:
1° Se determina el intervalo al cual pertenece el percentil por calcular en la tabla de frecuencias:
percentil_intervalo.jpg (100×85)
en donde:
K = {1, 2, …, 99} 
n es el número de datos. Si es decimal se aproxima al entero más cercano superior.
Buscamos este valor en la columna de la frecuencia acumulada. El cual es el primer valor de x cuya frecuencia acumulada sobrepasa el resultado de este cálculo.
2° Luego, Para calcular el percentil Pk correspondiente al k% de los datos se puede utilizar la siguiente fórmula:
percentil_formula.jpg (341×124)
Donde:
Li es  el  límite  inferior  del  intervalo  donde  se  encuentra  el k%  de  los  datos.
ai es  la  amplitud  del intervalo donde se encuentra el k% de los datos.
fi es la frecuencia absoluta del intervalo donde se encuentra el k% de los datos.
Fi-1 es la frecuencia acumulada anterior al intervalo donde se encuentra el k% de los datos.
n es el total de datos.

EVALUACION CORTE 2


EVALUACIÓN CORTE II VALOR 20%


Nombre y Apellido ______________________________________________

Cedula No. ________________________

PROBLEMA 1. Defina:

La variación de los valores incluídos en una serie de datos es la llamada dispersión. Los tipos más comunes de dispersión son: ____________________________________________________________________________

____________________________________________________________________________

La medida de dispersión que se utiliza para mostrar la variación de los valores entre el 50% de los elementos centrales se denomina: ______________________________________________________________________________

______________________________________________________________________________

y las que se usan para medir la variación de los valores alrededor de un promedio se denominan: ______________________________________________________________________________

______________________________________________________________________________

______________________________________ y ______________________________________

 LA ESTADÍSTICA APLICADA ES: ______________________________________________________________________________

______________________________________________________________________________

 Al describir una distribución estadística, comúnmente se emplea una medida de tendencia central para __________________________________________________________________________

 _____________________________________________________________________________

y una medida de dispersión para ___________________________________________________

______________________________________________________________________________

______________________________________________________________________________

______________________________________________________________________________


PROBLEMA 2.- Realice un análisis investigativo sobre los siguientes objetivos y de un ejemplo en que parte de su profesión se utilizaría : porque y para que.


2.1.-  Aplicar las diferentes medidas de tendencia central, a través de sus fórmulas, e interpretar  el significado del valor obtenido en la media aritmética, la mediana  y la moda, en problemas relacionados con la industria  y  la Ingeniería

2.2.-  Calcular las diferentes medidas de posición, cuartiles, sextiles, deciles, percentiles, definición características y usos.


    2.3.-    Calcular las diferentes mediadas de dispersión a través de sus fórmulas, la varianza, la desviación media  la desviación típica o estándar Desviaciones típicas, coeficientes de variación, conceptos, característica, y usos. 






PROBLEMA 3.- Resuelva



3.1 Los siguiente valores son los rendimientos por hectárea de un determinado producto agrícola (en toneladas) en 8 tejidos colectivos de diferentes regiones del país: 1, 2, 3, 4, 5, 11, 11, 30.

a) Calcule el recorrido o rango b
) Calcule la desviación cuartilica
c) Calcule la desviación media
d) Calcule la desviación estándar y la varianza
e) Calcule el coeficiente de variación
f) Interprete brevemente los resultados obtenidos.


3.2 Las calificaciones de 80 estudiantes de una clase de estadística, están dadas en la siguiente tabla: 

          Calificaciones                                               No. de estudiantes

              20 - 29                                                                      3
              30 - 39                                                                      6
              40 - 49                                                                     5
              50 - 59                                                                     7
              60 - 69                                                                    10
              70 - 79                                                                    29
              80 - 89                                                                    12
              90 - 99                                                                     8
                                                                               Total -->80

a)Calcular la desviación cuartílica
b)Calcular la desviación media
c)Calcular la desviación estándar.

CORTE II: Cálculo a partir de series simples y agrupadas de las medidas de dispersión

Cálculo a partir de series simples y agrupadas de las medidas de dispersión


 Las Medidas de Dispersión 


FORMULARIO

RANGO


VARIANZA



Recuerde que la formula de la Media para datos agrupados es



DESVIACIÓN ESTÁNDAR


  o en este caso, la formula se puede expresar así


la cual se puede emplear cuando ya se tiene el valor numérico de la Varianza.

COEFICIENTE DE VARIACIÓN

EJERCICIOS RESUELTOS

  Los datos ordenados que se dan, representan las percepciones salariales diarias, de empleados en una empresa


Calcule para esta tabla el Rango, la Varianza, la Desviación Estándar y el coeficiente de Variación.

CALCULO DEL RANGO
  Para calcular el Rango, se requiere incluir los Limites Reales de Clase. Para lograrlo se emplean las formulas que se utilizaron en la sección llamada ORDENAMIENTO DE DATOS, a saber



  Observe que la Unidad de Variación es igual a 5, la cual se calcula restando el LNI de la Clase 1(95) al LNS de la Clase 2(100).
  Para el calculo de los Limites Reales restamos y sumamos la mitad de la unidad de variación, o sea, 2.5, respectivamente como indican las formulas anteriores. La tabla quedaría





 el LRSMAX  es igual a 177.5 y el LRIMIN es igual a 77.5, entonces el Rango es de

R = 177.5 -77.5 =100


CALCULO DE LA VARIANZA

  Para calcular la Varianza es necesario determinar primero la media, la cual se obtiene en función del producto de las Marcas de Clase y las Frecuencias Absolutas en cada clase, como se vio en la sección anterior, por lo cual es necesario complementar la TDF con esta columna. Realizando el calculo respectivo, la tabla quedaría




en esta tabla se observa que la suma de los productos de MC*Fabs=39,550, y ademas que N=340.  Sustituyendo los valores en la formula de la Media 

quedaría

Ahora, si observamos el numerador en la formula de la Varianza


nos daremos cuenta que debemos incluir nuevas columnas a la TDF, que muestren cada una de las diferencias entre cada marca de clase y la media (MC- Media) y también que muestren esta diferencia elevada al cuadrado y multiplicada por cada Frecuencia Absoluta. Enseguida se incluyen



Sustituyendo en la formula de la Varianza los datos obtenidos


DESVIACIÓN ESTÁNDAR


  La Desviación Desandar se calcula como la raíz cuadrada de la Varianza.




COEFICIENTE DE VARIACIÓN

y el Coeficiente de Variación es





PROBLEMAS PARA EXAMEN

Calcule el Rango, Varianza, Desviación Estándar y Coeficiente de Variación para:


Solución
  Para la Tabla 1: Media=    193.65      
                            Varianza=10,628.80
                  Desv. Estándar=103.09
    Coeficiente de Variación=53.24%

  Para la Tabla 2: Media=166.98
                        Varianza=3600.61
      Desviación Estándar=60.60.01
Coeficiente de Variación=35.93%