Capítulo 05a: Análisis Estadístico

Análisis estadístico

ESTADÍSTICA: Rama de la matemática que usa cifras para generar inferencias o para reflejar cuantitativamente un fenómeno.

La estadística usa el método científico para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. VER https://analisisdecircuitos1.com/parte-1-circuitos-resistivos/capitulo-5-cifras-significativas/capitulo-05a-analisis-estadistico/metodo-cientifico/

EJEMPLO: ESTADÍSTICA EN CONTEXTO. Estudio realizado por la Universidad de Harvard Publicado el 27 mar. 2019

Ojo con las bebidas azucaradas lo Dice CARACOL NOTICIAS TELEVISIÓN

El estudio concluye que entre más se consuman bebidas azucaradas, mayor es el riesgo de muerte prematura, especialmente en las mujeres.

El estudio que analizó a 118.000 personas encontró que el consumo de bebidas azucaradas aumentó el riesgo de muerte prematura por enfermedad cardiovascular en un 31% y por cáncer en un 18%.

Según el estudio, las mujeres que tomaron más de 2 bebidas azucaradas al día registraron un aumento del 63% de riesgo de muerte prematura, mientras que en los hombres el incremento en el riesgo fue del 29%.

DATO: información que puede ser analizada y que brinda acceso a un conocimiento preciso y concreto.

POBLACIÓN Y MUESTRA:

Captura

Fuente: https://www.questionpro.com/es/tama%C3%B1o-de-la-muestra.html

POBLACIÓN O UNIVERSO (N): Grupo o conjunto completo o entero de objetos, individuos, elementos o eventos con determinadas características sobre el cual se quiere estudiar alguna de esas características.

Para contar el número de datos de la población usaremos la letra mayúscula N, y la minúscula n para la muestra.

POBLACIÓN FINITA: Es aquella que indica que es posible medir, y que posee o incluye un número limitado de medidas y observaciones;

Por ejemplo,

  • El número de alumnos de un centro de enseñanza,
  • Todas las tuercas producidas por una fábrica en un cierto día,
  • Los niños de tres años de edad con discapacidad intelectual.
  • Todas las estudiantes mujeres, de 22 años, que cursan estudios de literatura en la Universidad Central de Venezuela.
  • Los efectos secundarios del Acetaminofén.

POBLACIÓN INFINITA: Conjunto de individuos, objetos o situaciones, que presentan factores comunes –más allá de su naturaleza o género, pero cuyo número se encuentra calculado más allá de cien mil elementos distintos, imposible de medir. La idea se relaciona más con la dificultad para contar este número de elementos debido, por ejemplo, a los costos que al carácter realmente infinito de elementos que posean una característica. No aplica mencionar entonces el número de granos de arena, o el número de estrellas en el universo, etc.

Por ejemplo,

  • Número de tornillos producidos por una empresa durante un año.
  • Número de personas que ven un partido de fútbol en un mundial

Captura

MUESTRA (n): Parte de una población que se examina en especial cuando la población es demasiado grande. Usaremos la letra minúscula n para el número de datos de la muestra.

TAMAÑO DE LA MUESTRA (n): Número determinado de sujetos o cosas que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

El tamaño muestral dependerá de decisiones estadísticas (como la desviación estándar, el número de datos, y el nivel de confianza) y no estadísticas ( que pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el equipo que estará en campo).

Se le llama muestra porque solo representa parte del grupo de personas (o población objetivo) cuyas opiniones o comportamiento te interesan.

Por ejemplo, una forma de obtener una muestra es usar una “muestra aleatoria”, en la que los encuestados se eligen completamente al azar de entre la población total del grupo objetivo.

TAMAÑO DE LA POBLACIÓN (N):  La cantidad total de personas en el grupo que deseas estudiar.

Si estás tomando una muestra aleatoria de personas en EE. UU., entonces el tamaño de tu población será aproximadamente de 317 millones.

De igual forma, si estás realizando una encuesta en tu empresa, el tamaño de la población es la cantidad total de empleados.

MARGEN DE ERROR (e): Un porcentaje que te dice en qué medida puedes esperar que los resultados de tu encuesta reflejen la opinión de la población general. Entre más pequeño sea el margen de error, más cerca estarás de tener la respuesta correcta en un determinado nivel de confianza. Cuando estudiemos las medidas de dispersión, se aclarará más este concepto.

CÁLCULO DEL TAMAÑO DE UNA MUESTRA: El siguientes ejemplo solo pretende ser ilustrativo, y se estudiará más a fondo al final cuando se estudien las medidas de dispersión, en especial, la desviación estándar.

Ejemplo: Supongamos que se desea conocer cuántas plantas hay que tomar de un total de 600 para tener una información adecuada de la densidad de una plaga con error estándar menor del 3% y 95 % de confiabilidad. Estos datos se pueden simular en https://www.ecured.cu/Tama%C3%B1o_de_Muestra.

Captura

De la simulación se tiene que el tamaño de la muestra es 385 plantas.

Según la fórmula se deben muestrear 385 plantas; si le resulta muy costoso puede reducir el tamaño de la muestra sacrificando el margen de error subiéndolo a 5%, 10%, 15% o hasta 25% teniendo en cuenta que en la muestra se deben tomar plantas con síntomas y sin síntomas de la plaga.

Por ejemplo, si aumenta el margen de error al 20%, la muestra tendrá un tamaño de 24 plantas, y debe asegurarse que en esta muestra hayan plantas sanas y enfermas.

Captura

https://es.surveymonkey.com/mp/sample-size-calculator/

ESTADÍSTICO O ESTADÍGRAFO: Elemento que describe una muestra y sirve como una estimación del parámetro de la población correspondiente.

Es la medida descriptiva de una muestra.

Calculo resumido de mediciones realizadas en una muestra para estimar un parámetro de la población. El estadístico es a la muestra lo que el parámetro es a la población.

EJEMPLO 1:

  • El ingreso promedio de la muestra de asalariados de Estados Unidos.
  • La producción total de la muestra de plantas manufactureras.
  • Edad promedio de la muestra de estudiantes.

PARÁMETRO: Elemento que describe una población.

EJEMPLO 1:

  • El ingreso promedio de la población de asalariados de Estados Unidos.
  • La producción total de la población  de plantas manufactureras.
  • Edad promedio de la población de estudiantes.

Relación entre Estadístico y Parámetro

Captura

Para contar el número de datos de la población usaremos la letra mayúscula N, y la minúscula n para la muestra.

compra fuente019

Estadísticos, estadígrafos o descriptivos básicos:

  • Índices de tendencia central: media aritmética, mediana, moda, rango medio
  • Índices de posición o cuantiles: mediana, cuartiles, quintiles, deciles, percentiles
  • Índices de dispersión:
    • rango (min-max),  rango intercuartil (25-75), rango percentil (10-90),
    • rango semi percentil (10-90)/2, desviación cuartil (25-75)/2,
    • desviación media absoluta, desviación estándar o típica
  • Índices de dispersión relativa:
    • coeficiente de variación de Pearson
  • Índices de distribución o de forma: asimetría, curtosis

DATOS ESTADÍSTICOS: Los datos estadísticos son valores que se obtienen al llevar a cabo un estudio de tipo estadístico, producto de la observación de un fenómeno que se pretende analizar.

FUENTE: https://definicion.de/datos-estadisticos/

FILAS DE DATOS: Una fila de datos es un conjunto de datos recogidos que no han sido organizados numéricamente. Simplemente se anotan uno a uno en la medida que son recogidos, sin ningún criterio de orden numérico. El nombre de FILAS da la sensación de que los datos son recogidos en filas, uno tras otro.

EJEMPLO 1: Edades de 100 personas de un geriátrico ordenadas en orden alfabético.

En EXCEL se pueden generar filas de datos enteros usando la función ALEATORIO.ENTRE y la función Redondear(ALEATORIO ()*(Superior-Inferior)+Inferior;decimales), para números decimales.

ORDENACIONES: Una ordenación es un conjunto de datos numéricos ordenados en orden creciente o decreciente.

EJEMPLO 1: Cantidad de libros prestados en una biblioteca durante 20 días ordenada en orden creciente por columnas. Al ordenar estas cantidades ya no es posible determinar cuantos libros se prestaron en un día determinado.

EJEMPLO 2: Puntaje ICFES obtenido por 6 estudiantes de la Institución Educativa San Lorenzo de Aburrá ordenados en orden decreciente.

ESTADÍSTICA INDUCTIVA

Estadística iNductiva, inferencia estadística o estadística inferencial: Involucra la utilización de una muestra representativa de la población para sacar alguna inferencia o conclusión sobre la población de la cual hace parte la muestra. Como la conclusión no es del todo exacta, se emplean las probabilidades.

Ejemplo:

Cuando el Ministerio de Trabajo utiliza el ingreso promedio de una muestra de varios miles de trabajadores para calcular el ingreso promedio de 121 millones de trabajadores, está utilizando estadística inferencial.

ESTADÍSTICA DEDUCTIVA

Estadística descriptiva o deductiva: Es la parte de la estadística que sólo se ocupa de describir y analizar un grupo o muestra dado, sin sacar conclusiones sobre un grupo mayor o población.

Es el proceso de recolectar, agrupar y presentar datos de una manera tal que describa fácil y rápidamente dichos datos. La estadística descriptiva pone en evidencia ciertas características de forma más objetiva y útil.

La estadística descriptiva investiga los métodos y procedimientos y establece reglas para que el manejo de los datos sea más eficiente y para que la información entregada resulte confiable, además de expresar en un lenguaje sencillo la información para que cualquier persona la comprenda y pueda establecer comparaciones y/o tomar decisiones sobre la muestra.

DATOS NO AGRUPADOS:  Datos en bruto o datos que no han sido ordenados en clases, tal que no se puede obtener información útil y significativa, y por lo tanto hacen difícil llegar a una conclusión simplemente revisando los datos anotados.

Es el conjunto de observaciones o elementos que se presentan en su forma original tal y como fueron recolectados, para analizarlos de manera directa sin tener que usar tablas de frecuencias. Usualmente, los datos no agrupados se analizan fácilmente si son menos de 30 datos.

Del sitio STATISTA es posible acceder a más de un millón de datos y estadísticas. Visita el sitio en: https://es.statista.com/

EJEMPLO 1: Edad de 10 estudiantes del grado noveno.

15 14 15 16 15 14 16 13 15 14

Se pueden analizar fácilmente, y concluir por ejemplo que la moda es 15. No hubo necesidad de agruparlos en clases para deducir esto.

CLASE, INTERVALO O CATEGORÍA o SUBGRUPO: Grupo en que se colocan cosas, elementos o personas según sus condiciones.

DATOS AGRUPADOS (EN CLASES): Datos organizados en clases.

Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en una tabla de frecuencias dividida en clases o categorías para facilitar su análisis estadístico.

El proceso de agrupamiento puede destruir detalles de los datos iniciales, pero ofrece una visión nítida y saca a la luz relaciones que son evidentes.

EJEMPLO 1: En la tabla anterior se observan DATOS AGRUPADOS en una tabla de frecuencias en 6 CLASES:

La categoría 1 que va de 86 a 90, en la que se agrupan 4 estudiantes, la que va de 91 a 95 en la que se agrupan 10 estudiantes, etc.

OBSERVACIONES: De esta tabla podemos concluir que:

  • 4 de 94 estudiantes del grado 11 tienen un coeficiente intelectual entre 86 y 90, el más bajo.
  • 10 de 94 estudiantes del grado 11 tienen un coeficiente intelectual entre 111 y 115, el más alto.
  • La mayoría de estudiantes del grado 11 tienen un coeficiente intelectual entre 101 y 105.
  • 20 de 94 estudiantes del grado 11 tienen un coeficiente intelectual entre 96 y 100, y es el segundo grupo más numeroso.

CÁLCULO DE INTERVALOS

CÁLCULO DE INTERVALOS: Para agrupar los datos primero deben conocerse algunas definiciones.

RANGO O RECORRIDO (R):

El Rango o recorrido es el intervalo (sin tilde) entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos. Es la diferencia entre el mayor y el menor de los datos.

EJEMPLO 1: De la edad de 100 personas de un geriátrico se tiene que:

MAYOR= 74 años

MENOR= 60 años

RANGO = R= MAYOR – MENOR = 74 – 60 = 14 años

EJEMPLO 2: Puedes saltar este ejemplo. Se ha presentado este ejemplo con el ánimo de mostrar que incluso un poema puede analizarse estadísticamente, y aprovechar para disfrutar de un hermoso poema.

Estadísticas de legibilidad del Poema 20 de Pablo Neruda, presentada en 10 categorías: sustantivos, adjetivos, verbos, pronombres, preposiciones, conjunciones, interjecciones, determinantes, adverbios y nombres propios. Ver tabla al final.

También se pueden analizar el número de caracteres, palabras, párrafos, caracteres por palabra, palabras por oración, y oraciones por párrafo. En número de caracteres con espacios, y número de caracteres sin espacios, número de líneas, y el número de páginas.

Veamos cuales son las categorías gramaticales para analizar el Poema 20, de Pablo Neruda.

FUENTE: https://es.slideshare.net/hectorpereztovar/categorias-gramaticales

POEMA 20

Puedo escribir los versos mas tristes esta noche.
Escribir, por ejemplo: “La noche está estrellada,
y tiritan, azules, los astros, a lo lejos.”
El viento de la noche gira en el cielo y canta.

Puedo escribir los versos más tristes esta noche.
Yo la quise, y a veces ella también me quiso.

En las noches como ésta la tuve entre mis brazos.
La besé tantas veces bajo el cielo infinito.

Ella me quiso, a veces yo también la quería.
Cómo no haber amado sus grandes ojos fijos.

Puedo escribir los versos más tristes esta noche.
Pensar que no la tengo. Sentir que la he perdido.

Oír la noche inmensa, más inmensa sin ella.
Y el verso cae al alma como al pasto el rocío.

Qué importa que mi amor no pudiera guardarla.
La noche está estrellada y ella no está conmigo.

Eso es todo. A lo lejos alguien canta. A lo lejos
Mi alma no se contenta con haberla perdido.

Como para acercarla mi mirada la busca.
Mi corazón la busca, y ella no está conmigo.

La misma noche que hace blanquear los mismos árboles.
Nosotros, los de entonces, ya no somos los mismos.

Ya no la quiero, es cierto, pero cuánto la quise.
Mi voz buscaba el viento para tocar su oído.

De otro. Será de otro. Como antes de mis besos.
Su voz, su cuerpo claro. Sus ojos infinitos.

Ya no la quiero, es cierto, pero tal vez la quiero.
Es tan corto el amor, y es tan largo el olvido.

Porque en noches como ésta la tuve entre mis brazos,
mi alma no se contenta con haberla perdido.

Aunque éste sea el último dolor que ella me causa,
y estos sean los últimos versos que yo le escribo.

Pablo Neruda
Poeta, Chileno.

FUENTE: https://i.pinimg.com/originals/6e/eb/b6/6eebb65f9e81e0213b4cff4ad9f2fa19.jpg

Para conocer la legibilidad de un documento en Word:

  • Haga clic en la pestaña Archivo y, después, en Opciones.
  • Haga clic en Revisión.
  • Al corregir la ortografía y la gramática en Word, asegúrese de que la casilla de verificación Revisar gramática con ortografía esté activada.
  • Seleccione Estadísticas de legibilidad.
  • Después de habilitar esta característica, abra el archivo que desee comprobar y revise la ortografía presionando F7 o yendo a revisar > ortografía y gramática. Cuando Word termina de revisar la ortografía y la gramática, muestra información sobre el nivel de lectura del documento.
  • Importante: Tiene que corregir, o ignorar, todos los errores ortográficos encontrados en el documento antes de que se muestren las estadísticas de legibilidad. Si aún hay líneas rojas en el archivo, no se mostrarán las estadísticas de legibilidad.

Análisis de las categorías gramaticales del Poema 20, de Pablo Neruda.

EL siguiente análisis se hizo con el programa en línea Don Gramaticón, El analizador morfológico de textos. http://onomateca.com/gramaticon/gramaticon.php

Otros espectaculares analizadores son:

Captura

CÁLCULO DEL NÚMERO DE CLASES (k):

El número adecuado de intervalos de clase depende del número total de mediciones, pero esencialmente depende de que al graficar los datos no halla clases vacías y las menos clases aisladas (sin datos) posibles.

Este número de clases no es riguroso, y se debe tratar evitar dejar clases vacías, es decir, clases sin elementos en ellas, o clases aisladas, es decir, clases con uno o dos elementos, o con muy pocos elementos en relación a otras clases.

Si los intervalos son muy pocos se pierden detalles, y si son muchos no es posible observar patrones, además de hacerse más dispendioso el trabajo.

La esencia de un gráfico es transmitir la información relevante de una manera significativa y simple. Se debe procurar dividir el rango en un número adecuado de intervalos de clase del mismo tamaño.

Usa tu criterio en el cálculo del número de clases, buscando que se cumpla lo dicho anteriormente.

Los intervalos de clase se eligen de modo que las marcas de clase coincidan con datos realmente observados. Ello tiende a disminuir el error de agrupamiento.

Podemos usar tres criterios para determinar el número de clases: por el número de datos, por el criterio de la raíz cuadrada, y por la regla de Sturges.

CRITERIO 1: POR EL NÚMERO DE DATOS. De acuerdo con el tamaño de la muestra, el número de datos se puede dividir en el siguiente número de clases:

  • Menos de 100 datos: 5 a 10 clases
  • De 100 a 250 datos: 7 a 12 clases
  • De 250 datos en adelante: 10 a 20 clases.

EJEMPLO 1: Si se tienen las edades de 100 personas de un geriátrico (cuya tabla aparece más arriba), podemos usar 5 clases pues son menos de 100 datos. Cuando se haga la gráfica en EXCEL, se podrá variar este valor para determinar que este era el más adecuado, pues no deja clases vacías o aisladas.

CRITERIO 2: RAÍZ CUADRADA. El número de clases se puede calcular también como la raíz cuadrada de N, donde N es la cantidad de datos de la encuesta.

  Número de clases: k = √N

EJEMPLO 2: El número de clases correspondiente a las edades de 100 personas es:

Número de clases: k = √n = √100 = 10

CRITERIO 3: REGLA DE STURGES. Para obtener un valor aproximado del número de clases, podemos emplear la regla de ¨STURGES¨.

k =1+ logN/log2

k= 1 + 3,322 logN

donde N es el número de elementos de la muestra.

ver https://www.lifeder.com/regla-sturges/

El número de intervalos siempre debe estar representado por números enteros. En los casos en los que el valor sea decimal, se debe hacer una aproximación al número entero más próximo.

EJEMPLO 3: Para los 100 datos que estamos analizando se tiene:

k = 1+3,322 log 100

k = 1+3,322 (2) =1+6,6 =7,6 = 8

Como se observa, para los 100 datos que estamos analizando, pueden usarse 8 clases.

AMPLITUD DEL INTERVALO DE CLASE (C): 

También se llama TAMAÑO, LONGITUD O ANCHO. Es el ancho o tamaño de los intervalos. Se calcula dividiendo el RANGO por el NÚMERO DE CLASES. El ancho de clase tiene las mismas unidades que el rango.

ANCHO DE CLASE = RANGO / NÚMERO DE CLASES

C = R / k

EJEMPLO 1: Si el rango es 24 y el número de clases es 6, entonces C = 24/6 = 4

EJEMPLO 2: De la edad de 100 personas de un geriátrico se tiene que:

MAYOR= 74 años

MENOR= 60 años

RANGO = R= MAYOR – MENOR = 74 – 60 = 14 años

Si el rango es 14 años y el número de clases es 5, entonces el ancho C= 14/5 =2,8. Se redondea a 3 años.

En general, los datos se agrupan en intervalos que tengan todos la misma amplitud o ancho de clase (C).

Para el ejemplo de las edades de 100 personas del geriátrico se considerará que el número de intervalos que debe de tener la tabla de frecuencias es de 5 y el ancho de clase o el tamaño de los intervalos es de 3.

PRECISIÓN:

La precisión es la mínima diferencia que puede existir entre dos datos consecutivos correspondientes a variables continuas.

Por ejemplo, si son edades: 45, 48, 50, etc., la precisión es 1, pues la diferencia entre el 45 y el siguiente posible dato 46, es 46-45=1.

Si son calificaciones: 2,3; 3,5; 4,6 la precisión es 0,1, pues la diferencia entre 2,3 y el siguiente posible dato 2,4 es 2,4-2,3 = 0,1.

Si son estaturas: 1,45; 1,58; 1,78 la precisión es 0,01, pues la diferencia entre 1,45 y el siguiente posible dato 1,46 es 1,46-1,45 = 0,01.

Al tomar los datos solo se tuvo en cuenta números enteros para la edad. Esto no significa que la edad sea una variable discreta. De hecho, la edad es una variable continua ya que una persona puede tener 63 años y medio.

Observe que el dato en rojo 60 es el menor dato. Además, al sumarle el ancho de clase 3, produce el intervalo de clase 60-63. La siguiente clase, es decir, la clase 2 comienza con 63 que se muestra en azul. Observe, además, que 74 (la edad mayor) está comprendida en el último intervalo.

Observe que la primera clase termina en 63, y la segunda clase comienza en 63, lo cual impide saber a cual clase pertenece la persona con edad de 63 años, o puede ocasionar que se cuente dos veces la edad de 63, e igualmente, con los datos 66, 69 y 72 .

La imagen tiene un atributo ALT vacío; su nombre de archivo es image-30.png

Para corregir esto, usamos la precisión y  disminuimos en 1 el límite superior de cada clase. Esto es así si los datos son números enteros. Al disminuir en 1 el límite superior, se reduce el ancho de cada clase. El ancho C pasó de 3 a 2.

Captura

Si en vez de disminuir, aumentamos en uno se tendrían los intervalos: 60-63, 64-67, 68-71, 72-75, 76-79. Pero, como se observa, la edad mayor de 74 queda en el cuarto intervalo, y no el quinto como se esperaba, como se puede ver en la figura siguiente:

Captura

En conclusión, en cualquier caso se debe tener en cuenta la precisión de los datos para evitar contarlos dos veces.

INTERVALOS DE CLASE:

Los intervalos de clase son una agrupación o subconjuntos de valores de una variable cuantitativa que se usan para facilitar la interpretación mediante tablas o gráficos, y se define como el rango de valores encontrados dentro de una clase. Un intervalo de clase contiene todos los valores que se encuentran entre el valor mínimo y el máximo que delimitan esa clase.

Se emplean intervalos de clase para analizar datos cuando el número de datos es mayor a 30. Es decir, de 30 datos en adelante se tratan los datos como datos agrupados en intervalos. Cada uno de estos intervalos es un símbolo para la clase. Es deseable que todos los intervalos sean de igual tamaño o ancho, ya que facilita las interpretaciones estadísticas.

CONSTRUCCIÓN DE LOS INTERVALOS DE CLASE:

Hay distintas formas de construir los intervalos dependiendo del tipo de variable que estemos trabajando.

EJEMPLO 1: El número de hijos de una familia, es una variable discreta ya que es entero y finito. Aunque aparece que una familia puede tener 6 o más hijos, este número de hijos no es infinito. Hemos agrupado en 4 clases o categorías. Sólo quedaría pendiente conocer el número de hijos de cada clase.

EJEMPLO 2: El número de matrimonios de una persona, es entero y finito. Aunque aparece que una persona se puede casar 4 o más veces, dudo que lo haga, a menos que sea actor de Hollywood.

Sin embargo, en la estatura si es posible encontrar un amplio número de estaturas dentro de una clase.

EJEMPLO 3: La estatura en metros de un grupo de 100 personas, es una variable continua.


La estatura en metros de un grupo de 100 personas. En este ejemplo se han determinado 5 categorías. Observe que la precisión de estos datos es 0,01, que es la menor distancia posible entre dos datos.

EJEMPLO 4: La temperatura en grados Celsius tomada cada hora durante un día. También es una variable continua.

¿Cuáles serían las clases que tu podrías proponer para agrupar estas temperaturas?

Límites de clase:

Los límites de clase son los números extremos de los intervalos de clase.

LÍMITE INFERIOR (Linf): Es el número extremo de la izquierda o inferior de la clase.

EJEMPLO 1: Para la clase 1 el límite inferior es 60

EJEMPLO 2: Para la clase 2 el límite inferior es 62

LÍMITE SUPERIOR (Lsup): Es el número extremo de la derecha o superior de la clase.

EJEMPLO 1: Para la clase 1 el límite superior es 62

EJEMPLO 2: Para la clase 2 el límite superior es 65

Para construir la tabla con los intervalos, el primer intervalo siempre se comienza con el dato menor del total de datos (60) y le sumamos el tamaño del intervalo es decir (3), y luego le restamos la precisión.

Continuando con nuestro ejercicio de edades tenemos:

En la siguiente tabla de estaturas, la precisión es de 1,56-1,55=0,01

INTERVALO DE CLASE ABIERTO: Intervalo de clase que carece de límite superior o inferior.

EJEMPLO 1: El intervalo de clase: 65 años o más.

EJEMPLO 2: El intervalo de clase: 60 años o menos.

FRONTERAS DE CLASE:

También se llaman LÍMITES EXACTOS, REALES O VERDADEROS: Son puntos específicos de la escala que sirven para separar “clases adyacentes”. También reciben el nombre de verdaderos límites de clase o límites reales de clase.

Se obtienen promediando el límite superior de un intervalo de clase con el inferior del siguiente.

A veces se usan las fronteras de clase como símbolos para la clase, en vez de los intervalos de clase. Para evitar ambigüedad en la notación, las fronteras no deben coincidir con valores realmente medidos.

FRONTERA DE CLASE INFERIOR: Número extremo izquierdo o inferior de la frontera de clase.

FRONTERA DE CLASE SUPERIOR: Número extremo derecho o superior de la frontera de clase.

Observe que la primera clase termina en 63, y la segunda clase comienza en 63, lo cual impide saber a cual clase pertenece el dato 63.

Se pueden determinar identificando los puntos que están en la mitad entre los límites superior e inferior de las clases adyacentes, una vez que se ha tomado en cuenta la precisión de los datos.

A veces se usan las fronteras de clase como símbolos para la clase, en vez de los intervalos de clase.

Las fronteras o límites verdaderos de una clase, son los puntos medios entre los límites inferior y superior de intervalos consecutivos.

Por ejemplo, la clase 1 y clase 2 son adyacentes. Para las clases 60 – 62 y 63 – 65 la frontera de clase está en la mitad de 62 y 63, es decir 62,5

La distancia entre la frontera inferior y el límite inferior de una misma clase, así como la existente entre el límite superior y la frontera superior de una misma clase es igual a media unidad de aproximación.

EJEMPLO 1: Si en una tabla de distribución de frecuencias, los límites de clase habiendo considerado la precisión son:

60-62

63-65

66-68

69-71

72-75

entonces las fronteras serían

59,5 – 62,5

62,5 – 65,5

65,5 – 68,5

68,5 – 71,5

71,5 – 74,5

Observe que las fronteras no coinciden con datos realmente observados. Tienen un decimal más que los datos.

MARCAS DE CLASE (Xi)

MARCA DE CLASE (Xi): Es el punto medio del intervalo de clase y se obtiene promediando los límites superior e inferior de un intervalo de clase. Se calcula sumando el límite inferior y el superior del intervalo de clase, y dividiendo por 2. Una marca de clase representa al intervalo de esa clase.

Usaremos la letra equis seguida del sub índice i para indicar la marca de clase de un determinado intervalo.

El ancho de clase se puede calcular además como la diferencia entre las fronteras de clase superior e inferior. También es la diferencia entre dos límites superiores o entre dos límites inferiores de dos clases sucesivas.

EJEMPLO 1 : Las marcas de clase de nuestro ejercicio son:

X1 = (60 + 62) /2=122/2=61. El 61 representa los datos de la clase 60-62

X2= (63 + 65) /2= 128/2=64

X3=(66 + 68) /2=134/2= 67

X4= (69 + 71) /2=140/2= 70

X5= (72 + 74) /2=146/2=73

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS: Es una disposición tabular de los datos agrupados en clases junto con las correspondientes frecuencias de clase.

FRECUENCIA ABSOLUTA DE CLASE (fi): Es el número de individuos o elementos que pertenecen a una clase.

Ejemplo: Para la siguiente tabla

CLASE 1: 60 – 62 FRECUENCIA= 24

CLASE 2: 63 – 65 FRECUENCIA= 15

CLASE 3: 66 – 68 FRECUENCIA= 23

CLASE 4: 69 – 71 FRECUENCIA= 18

CLASE 5: 72 – 74 FRECUENCIA= 20

Reglas para formar tablas de distribución de frecuencias

Antes de ejecutar el primer paso, detectar el máximo, el mínimo y el rango para tener certeza del aspecto que deben tener los datos que se van a encuestar.

Por ejemplo, si max =18, min = 14, entonces rango (R) = 4. Este número comparado con el número de clases k, que usualmente es 5 o mayor, ocasiona que el ancho sea muy pequeño. C= R/k = 4/6= 0,7 (redondeado). Entonces el primer intervalo sería 14 a 14,7. Este 14,7 indica que hay que recoger los datos con una precisión de un decimal, en vez de números enteros.

Paso 1: Generar un conjunto de datos, usando la función ALEATORIO.ENTRE de EXCEL. En este punto también se pueden obtener los datos reales preguntando, haciendo la encuesta.

Paso 2: Contar los datos, usando la función CONTAR de EXCEL. Determinar si va a tratar estos datos como una muestra (n) o una población (N).

Paso 3. Determinar el mínimo usando MIN, y el máximo usando MAX.

Paso 4: Hallar el rango. Si los datos son muy homogéneos, el rango va a ser muy pequeño comparado con el número de clases, lo que ocasionará que al dividir R/k para obtener la amplitud se tenga un número menor que 1. 

Paso 5: Calcular el número de clases (k), usando cualquier criterio, de preferencia el criterio de la regla de Sturges. k=1+log N/log 2

Paso 6: Calcular la AMPLITUD las clases (c). c = R/k

Paso 7: Determinar la precisión de los datos, basados en el número de decimales de la amplitud. Por ejemplo, si la amplitud es 0,7, entonces la precisión es 0,1.

Paso 8: Determinar los límites inferior y superior

  • El primer límite inferior es el MIN
  • El primer límite superior es el primer límite inferior más la amplitud, menos la precisión.
  • El segundo límite inferior es el primer límite superior más la precisión
  • Se arrastran las fórmulas

Paso 9: Determinar las fronteras inferior y superior de cada intervalo. También se llaman verdaderos límites de clase, o límites reales de clases, LRI Y LRS.

Paso 10: Determinar las marcas de clase, promediando los límites inferior y superior de cada intervalo.

Paso 11: Determinar las frecuencias absolutas (fi) de cada intervalo.

Si se hace manualmente ha de contarse uno a uno los datos para encontrar cuáles hacen parte de cada intervalo.

Si se hace en EXCEL, se sigue el siguiente procedimiento en este orden:

  • Se escribe el símbolo igual seguido de la función FRECUENCIA
  • Se abre paréntesis, y se seleccionan los datos
  • Se coloca punto y coma y se se seleccionan los límites superiores y se da ENTER.
  • Se selecciona toda la matriz: este primer valor y todas las demás clases
  • Se hace click en la tecla FUNCIÓN, que aparece como Fn, y se suelta
  • Se hace click en la tecla F2. Si se hizo bien, deben aparecer coloreados los datos y los límites superiores
  • Se oprimen con la mano izquierda las teclas SHIFT y CTRL, y con la mano derecha la tecla ENTER, En este momento deben aparecer las frecuencias de cada intervalo.

Paso 12:  Calcular las frecuencias absolutas acumuladas (Fi)

  • La primer frecuencia acumulada es la primer frecuencia absoluta
  • La segunda frecuencia acumulada es la primer frecuencia acumulada más la segunda frecuencia absoluta.
  • Se arrastra la fórmula para las demás clases.

Paso 13: Calcular las frecuencias relativas (hi)

«Relativas» hace alusión a la relación entre la frecuencia absoluta de un intervalo y el número de datos totales.

  • Se divide cada frecuencia absoluta entre el número de datos. No olvidar «congelar» el número de datos con el símbolo $. 

Paso 14: Calcular las frecuencias relativas acumuladas (Hi)

Paso 15: Calcular las frecuencias relativas en porcentaje (hi%)

Paso 16: Calcular las frecuencias relativas acumuladas en porcentaje (Hi%)

Paso 17: Obtener la media, la mediana y la moda, entre muchos otros valores que se pueden obtener.

Paso 18: Obtener conclusiones, lo cual es el objetivo fundamental de todo este análisis.

Ahora, vamos a hacer todo esto en EXCEL.

Captura

Captura

Captura

Captura

Captura

Un corto video nos ayudará en este propósito. Tomado del canal de YouTube MATEMOVIL

DESCARGA EL ARCHIVO DE EXCEL PARA QUE HAGAS TUS PROPIAS TABLAS DE FRECUENCIA. No borres nada hasta que verifiques si allí hay fórmulas.

analisis-estadistico-310320191647-1DESCARGA

Ejemplo:

La siguiente tabla reúne las longitudes en metros de 100 varillas, manufacturadas por la fábrica ABC, ordenadas de menor a mayor.

A partir del siguiente archivo de EXCEL se estima el número de clases, y determinar que el número más apropiado es 6 aunque este produzca dos datos aislados, pues colocar 7 produce una clase vacía y una aislada; colocar 8 clases produce 3 clases aisladas y ninguna vacía. Al aumentar el número de clases se puede obtener una mejor aproximación a la media.

Descargue el archivo para sus simulaciones. Este archivo lo iré modificando y colocando la fecha de la última actualización en formato ddmmaaaahhmm.

Nombre del archivo: DISTRIBUCIONES DE FRECUENCIA longitud 080920192349

Número de clases: k=6

Precisión de los datos: 0,01

Captura

HISTOGRAMAS

HISTOGRAMA: es una representación gráfica de una variable en forma de barras, donde el área de cada barra es proporcional a la frecuencia de los valores representados.

Sirven para obtener una «primera vista» general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso).

De esta manera, ofrece una visión de grupo permitiendo observar una preferencia o tendencia por parte de la muestra o población por ubicarse hacia una determinada región de valores que pueda adquirir la característica.

Para construir el histograma se definen un número k de intervalos de clase y se grafica el histograma de frecuencias absolutas fi, es decir, el número de mediciones que caen dentro de cada intervalo.

La suma de las frecuencias absolutas fi es igual al número total de DATOS n o N:

Captura

También es conveniente graficar un histograma de frecuencias relativas hi, que es el cociente entre la frecuencia absoluta de cada clase y el número total de mediciones o datos. Para muestra n, y para población N.

Captura

La suma de las frecuencias relativas es uno, o 100% si se expresan en porcentajes.

Captura

El histograma de frecuencias absolutas y relativas correspondiente a la distribución de frecuencias de las 100 varillas puede verse en las siguientes figuras.

Captura

Captura

El histograma permite estimar visualmente el valor central de la distribución, su dispersión y su sesgo (o asimetría).

Medidas de tendencia central: Media, Moda y Mediana

Análisis gramatical del «Poema 20» de Pablo Neruda, realizado con http://tulengua.es/paramtext/.

Como se observa, arroja tres promedios: la media, la moda y la mediana, y una medida de dispersión: la desviación típica.

Captura

Diario La Capital, Mar del Plata. Argentina. Deportes 16 de septiembre de 2019
Así quedaron las posiciones y los promedios

Captura

https://www.lacapitalmdp.com/asi-quedaron-las-posiciones-y-los-promedios/

Media

Media: También se conoce como promedio, valor medio o media aritmética. Se define como la suma de todos los datos de un conjunto dividida por el número de datos.

La media tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son. Es decir, no es apropiado usar la media pues los valores atipicos la afectan demasiado.

La media no tiene por qué ser igual a uno de los valores de los datos, ni siquiera de su misma naturaleza: datos enteros pueden tener una media decimal.

Captura

Captura

Como se observa, la media experimental para datos agrupados difiere de la media verdadera, que se obtiene de sumar los datos y dividir por el número de datos. Esta pequeña diferencia se presenta al agrupar los datos, y se denomina error de agrupamiento.

Moda

Corresponde al valor de la variable que ocurre más veces, Si hay datos con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

Moda para datos no agrupados (en intervalos): Corresponde al valor de la variable que ocurre más veces. En EXCEL se puede usar la función MODA.VARIOS creando una fórmula de matriz.

Para crear una fórmula de matriz:

  1. Se selecciona un conjunto de celdas vacías en forma de columna.
  2. Sin perder la selección se comienza a escribir la función =moda.varios(seleccionardatos)
  3. Ctrl + shift + enter

Captura

Moda para datos agrupados (en intervalos): Una primera aproximación para la moda es la marca de clase del intervalo en la que el histograma alcanza un máximo. La marca de clase es el valor medio del intervalo de clase.

Captura

Sin embargo, como se ve en la siguiente figura, la moda puede calcularse más precisamente. Observe que la moda ya no es la marca de clase.

Captura

fuente: file:///C:/Users/giova/Desktop/pdfslide.net_tp-1-demostracion-mediana-y-moda-1.pdf

Captura

Intervalo modal: intervalo que tiene mayor frecuencia absoluta: 9,08-10,07

Li-1 Extremo inferior del intervalo modal: 9,08

fi  Frecuencia absoluta del intervalo modal: 37

fi-1  Frecuencia absoluta del intervalo anterior al modal: 18

fi+1  Frecuencia absoluta del intervalo posterior al modal: 33

C  Amplitud de los intervalos: 0,98

Mo = 9,08+((37-18)/((37-18)+(37-33)))*0,98

Mo=9,08+(19/(19+4))*0,98

Mo = 9,08 + (19/23)*(0,98) = 9,08+0,809

Mo = 9,889

Si hay dos o más modas consecutivas se obtiene la media de estas modas.

Mediana

Después de ordenar todos los datos, la mediana es aquel situado en la mitad del conjunto.

Si el conjunto de números tiene valores atípicos, entonces debe tomar en cuenta el uso de la mediana en vez de la media, pues los valores extremos afectarían demasiado a la media. Otra forma sería filtrar valores atípicos que estén sesgando los resultados, usando un diagrama de caja y bigotes.

https://anestesiar.org/2014/carne-o-pescado-eleccion-entre-media-y-mediana/

Cuando los datos no se ajustan a una distribución normal es mejor utilizar la mediana. La mediana es mucho más robusta, es decir que se afecta menos por la presencia de sesgos o de valores extremos en la distribución .

Mediana para datos no agrupados en intervalos: Si ordenamos todos los datos de manera creciente, la mediana es aquel situado en la mitad del conjunto, si el número de datos es impar; y es el promedio de los dos valores centrales si el número de datos es par.

Captura

Mediana para datos agrupados en intervalos: La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Geométricamente, la mediana es el valor de la abscisa que corresponde a la recta vertical que divide un histograma en dos partes de igual área.

Si N/2 coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente.

Si N/2 no coincide con el valor de ninguna abscisa, se calcula a través de semejanza de triángulos en el histograma de frecuencias acumuladas,

Captura

Captura

EJEMPLO:

Captura

Captura

Captura

Captura

Fuente: http://calculo.cc/temas/temas_estadistica/estadistica/teoria/posicion_3.html

Interpolación lineal

printscreen.jpg

Es decir, tenemos que buscar el intervalo en el que se encuentre n/2. Al observar la tabla de frecuencias encontramos que el intervalo mediano es el cuarto intervalo, con i=4, y la mediana está en el intervalo:

printscreen001.jpg

Captura

Captura

Captura

Captura

printscreen005.jpg

Captura

Medidas de dispersión o de variabilidad

Las medidas de dispersión miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí.

Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los datos son parecidos o varían mucho entre ellos.

Las principales medidas de dispersión son: Rango, rango medio, Rango intercuartílico, Desviación media, Varianza, Covarianza.

Rango o recorrido (R)

El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Rango = Máximo – Mínimo

R = Max – Min

Captura

Captura

Ejemplo:
Muestra A: 55 55 55 55 55 55 55 Rango = 55 – 55 = 0
Muestra B: 47 51 53 55 57 59 63 Rango = 63 – 47 = 16
Muestra C: 39 47 53 55 57 63 71 Rango = 71 – 39 = 32

Ejemplo:

En la muestra: 2, 4, 3, 1, 7, 1, 11, 2, 3, 94. El rango es r = 94 – 1 = 93
El rango es sencillo de calcular y de muy fácil interpretación, pero tiene la gran desventaja que es demasiado sensible a valores extremos. En el ejemplo se observa que todos los datos, excepto el 94, están entre 1 y 11, sin embargo, un valor extremo (94) hace que el rango sea 93.

Características y propiedades del rango

  • Es muy simple de obtener.
  • Es extremadamente sensible a la presencia de datos atípicos. Si hay datos outliers, estos estarán en los extremos, que son los datos que se usan para calcular el rango.
  • Ignora la mayoría de los datos. 
  • En general aumenta cuando aumenta el tamaño de la muestra (las observaciones atípicas tienen más chance de aparecer en una muestra con muchas observaciones).
  • En consecuencia, reportar el rango o el máximo y el mínimo de un conjunto de datos, no informa demasiado sobre las características de los datos. Resulta una medida poco eficiente.
  • A pesar de esto es frecuente encontrar en las publicaciones científicas datos numéricos resumidos a través de una medida de posición acompañada por los valores mínimo y máximo.

Rango medio (Rm)

El medio rango o rango medio de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor.

El rango medio a menudo es usado como una medición de resumen tanto por analistas financieros como por reporteros meteorológicos, puesto que puede proporcionar una medición adecuada, rápida y simple para caracterizar toda una serie de datos, como por ejemplo todo una serie de lecturas registradas de temperatura por horas durante todo un día

Rango medio = (Máximo+Mínimo)/2

Rm = (Max+Min)/2

Ejemplo: Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviendo mediante la correspondiente fórmula sería:

Rm = (8+3)/2=11/2=5,5

Representación del rango medio:

Medio rango.jpg

Captura

https://es.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/other-measures-of-spread/v/range-and-mid-range

Cuantiles

Los cuantiles son medidas estadísticas que dividen un conjunto de datos en partes iguales. En general, los cuantiles son valores que dividen un conjunto de datos ordenados en intervalos que contienen el mismo número de observaciones.

El primero en utilizar el término de percentil fue Francis Galton en 1885 (en [1] o [2]), que supervisó el trabajo de Donald McAlister, en el que aparece por primera vez el término de quartil [3]; o más bien, quartil superior y quartil inferior, en correspondencia con el percentil 75 y el percentil 25, respectivamente. El término cuantil fue usado luego por Kendall en 1940 cuando escribe «Note on the Distribution of Quantiles for Large Samples» [4].

McAlister trataba de dividir la muestra de datos ordenados en cuatro partes porcentuales iguales (de ahí Quartiles) con la mediana justo en el medio. En un trabajo posterior Galton los mencionaría todos: PercentilesDeciles y Quartiles.

http://pimedios.es/2015/02/21/entre-percentiles-cuartiles-y-cuantiles/

El cuantil es una medida estadística usada en diversos problemas matemáticos. Pertenece a las denominadas medidas de posición, las cuales son puntuaciones que se escogen para establecer la ubicación de un subgrupo de datos en relación al resto y son especialmente útiles en la interpretación porcentual de la información.

http://enfoqueontosemiotico.ugr.es/civeos/posters/esquivel_poster.pdf

Los cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria.

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de estas partes contiene el mismo número de frecuencias.  http://www.eumed.net/cursecon/libreria/drm/1d.htm

Constituyen una generalización del concepto de mediana. Así como la mediana divide a la serie estudiada en dos partes con el mismo número de elementos cada una, si la división se hace en cuatro partes, o en diez partes, o en cien partes, llegamos al concepto de cuantil.

El cuantil de orden p de una distribución (con 0 < p < 1) es el valor de la variable Xp  que marca un corte de modo que una proporción p de valores de la población es menor o igual que Xp.

Captura

Captura

Por ejemplo, el cuantil P36, de orden 0,36 dejaría un 36% de valores por debajo.

Captura

Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son: los cuartiles, quintiles, deciles y percentiles.

Los tipos más comunes de cuantiles son:

  1. Cuartiles: Dividen los datos en cuatro partes iguales.

    • Primer cuartil (Q1): El 25% de los datos están por debajo de este valor.
    • Segundo cuartil (Q2 o mediana): El 50% de los datos están por debajo de este valor.
    • Tercer cuartil (Q3): El 75% de los datos están por debajo de este valor.
  2. Deciles: Dividen los datos en diez partes iguales.

    • Primer decil (D1): El 10% de los datos están por debajo de este valor.
    • Quinto decil (D5): Corresponde a la mediana (50%).
  3. Percentiles: Dividen los datos en cien partes iguales.

    • Percentil 25: Corresponde al primer cuartil.
    • Percentil 50: Corresponde a la mediana.
    • Percentil 75: Corresponde al tercer cuartil.

Los cuantiles son útiles para comprender la distribución de los datos y para identificar valores atípicos o extremos.

Captura

Pongámonos un poco más exigentes: El percentil muestral de orden p por ciento es aquel valor de dato que tiene la propiedad de que al menos el p por ciento de los valores de datos son menores o iguales que él y que al menos el (100−p) por ciento de los valores de datos son mayores o iguales que él.
http://pimedios.es/2015/02/21/entre-percentiles-cuartiles-y-cuantiles/

Cuartiles

Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0,25; 0,50 y 0,75).

Cuartiles ( Qi ) Son valores de la variable que dividen a la distribución de frecuencias acumuladas en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. (Q2 = Me)

Captura

Captura

Captura

Cálculo de Cuartiles Para datos no agrupados:

Ejemplo: número impar de datos. N=9

DATOS: 7, 9, 10, 12, 13, 14, 17, 18, 19

Captura

Posición del cuartil 1: N/4=9/4=2,5

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones dos y tres.

Q1=(9+10)/2=9,5.

Observe que el 25% está entre 22% y 33%.

Posición del cuartil 3: 3N/4=27/4=6,75.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones seis y siete.

Q3=(14+17)/2=15,5. Observe que el 75% está entre 67% y 78%.

Ejemplo: número par (even) de datos. N=6

DATOS: 4, 7, 9, 11, 12, 20

Captura

Posición del cuartil 1: N/4=9/4=2,5.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones dos y tres. Q1=(7+9)/2=8. 

Posición del cuartil 3: 3N/4=18/4=4,5

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones cuatro y cinco. Q3=(11+12)/2=11,5

Ejemplo: número impar (odd) de datos. N=7

DATOS: 5, 8, 10, 10, 15, 18, 23

Captura

Posición del cuartil 1: N/4=7/4=1,75.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones uno y dos. Q1=(5+8)/2=6,5. Observe que el 25% está entre 14% y 29%.

Posición del cuartil 3: 3N/4=21/4=5,25.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones cinco y seis. Q1=(15+18)/2=16,5. Observe que el 75% está entre 71% y 86%

Ejemplo: número impar de datos. N=13

Consideremos nuevamente los datos siguientes.

Captura

Posición del Cuartil UNO=N/4=13/4=3,25. Da una fracción. Posiciones 3 y 4.

Q1=(134+146)/2=140

Posición del Cuartil TRES=3N/4=3(13/4)=9,75. Da una fracción. Posiciones 9 y 10.

Q3 =(246+302)/2 = 274

Ejemplo: número par de datos. N=44

Captura

Captura

Vamos a calcular los cuartiles usando un conjunto de 10 datos no agrupados.

Conjunto de datos:
3, 7, 8, 5, 12, 14, 21, 13, 18, 9

Paso 1: Ordenar los datos de menor a mayor

Primero, ordenamos los datos:

3, 5, 7, 8, 9, 12, 13, 14, 18, 21

Paso 2: Calcular la posición de los cuartiles

Para un conjunto de 10 datos, los cuartiles se pueden calcular utilizando las siguientes fórmulas:

Para nuestro conjunto:

Paso 3: Identificar los valores de los cuartiles

  • Q1: El 2.75-ésimo dato se encuentra entre el 2º y 3º valor del conjunto ordenado, lo cual sería un promedio entre el segundo y el tercer dato:

    Q1=5+0.75(7−5)=5+1.5=6.5Q1 = 5 + 0.75(7 – 5) = 5 + 1.5 = 6.5

  • Q2 (Mediana): El 5.5-ésimo dato se encuentra entre el 5º y 6º valor del conjunto ordenado:

    Q2=9+0.5(12−9)=9+1.5=10.5Q2 = 9 + 0.5(12 – 9) = 9 + 1.5 = 10.5

  • Q3: El 8.25-ésimo dato se encuentra entre el 8º y 9º valor del conjunto ordenado:

    Q3=14+0.25(18−14)=14+1=15Q3 = 14 + 0.25(18 – 14) = 14 + 1 = 15

Resultados

  • Q1: 6.5
  • Q2 (Mediana): 10.5
  • Q3: 15

Así que, los cuartiles para este conjunto de datos son:

  • Q1=6.5Q1 = 6.5
  • Q2=10.5Q2 = 10.5
  • Q3=15Q3 = 15

Cálculo de Cuartiles Para datos agrupados:

Se hace uso de la tabla de frecuencias acumuladas.

  • Q1 corresponde a (1/4)N = 0,25N, p = 25

Captura

  • Q2 corresponde a (2/4)N = 0,50N, p = 50. El cuantil P50, de orden 0,50 se corresponde con la mediana de la distribución.

Captura

  • Q3 corresponde a (3/4)N = 0,75N. p = 75

Captura

Quintiles

Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80).

Captura

  • K1 corresponde a (1/5)N = 0,20N, p = 20

Captura

  • K2 corresponde a (2/5)N = 0,40N, p = 40
  • K3 corresponde a (3/5)N = 0,60N. p = 60

Captura

  • K4 corresponde a (4/5)N = 0,80N, p = 80

Deciles

Los deciles, que dividen a la distribución en diez partes.

Deciles ( Di) Son los valores de la variable que dividen a la distribución en las partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Me )

descarga

descarga (1)

descarga

  • D1 corresponde a (1/10)N = 0,10N, p = 10
  • D2 corresponde a (2/10)N = 0,20N, p = 20
  • D3 corresponde a (3/10)N = 0,30N. p = 30
  • D4 corresponde a (4/10)N = 0,40N, p = 40
  • D5 corresponde a (5/10)N = 0,50N, p = 50

Captura

Captura

  • D6 corresponde a (6/10)N = 0,60N, p = 60
  • D7 corresponde a (7/10)N = 0,70N. p = 70
  • D8 corresponde a (8/10)N = 0,80N, p = 80
  • D9 corresponde a (9/10)N = 0,90N, p = 90

Percentiles

Los percentiles, que dividen a la distribución en cien partes.

Centiles o Percentiles ( Pi ) Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habrá 99 percentiles. (Q2 = D5 = Me = P50)

percile-scores

  • P10 corresponde a (10/100)N = 0,10N, p = 10
  • P20 corresponde a (20/100)N = 0,20N, p = 20
  • P35 corresponde a (35/100)N = 0,35N. p = 35
  • P48 corresponde a (48/100)N = 0,48N, p = 48
  • P50 corresponde a (50/100)N = 0,50N, p = 50

Captura

Ejemplo:

Como ejemplo, consideremos la distribución de peso de recién nacidos de sexo femenino y 38 semanas de gestación

Si se informa que el percentil 10% de esta distribución es 2450 g y el percentil 90% es 3370 g, estamos indicando que un 10% de las niñas que nacen en la semana 38 de gestación pesan 2450 g o menos (y en consecuencia, 90% pesan más que 2450 g) y que el 90% de las niñas de esta edad gestacional nacen con peso menor o igual
que 3370 g (y sólo el 10% con peso mayor que 3370 g).

ESTADÍSTICA DESCRIPTIVA.  Liliana Orellana. Página 38. http://www.dm.uba.ar/materias/estadistica_Q/2011/1/modulo%20descriptiva.pdf

Relación entre cuartiles, quintiles, deciles y percentiles

Captura

Mapa conceptual

Captura

https://www.mindomo.com/es/mindmap/cuantiles-8bd32fd030da4cb4bc915ff21ec6af1e

Si te pones muy serio, puedes leer lo siguiente.

Cálculo de cuantiles. Cuando el promedio y la desviación estándar no son suficientes. Por Thomas J. Bzik. https://www.astm.org/SNEWS/SPANISH/SPJA14/datapoints_spja14.html

Rango intercuartílico (Ri/Ric/RQ/IQR)

Se le llama rango intercuartílico o intercuartil, a la diferencia entre el tercer y el primer cuartil de una distribución.

Rango intercuartil = Tercer Cuartil – Primer Cuartil

Ri = Q3 -Q1

El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 – Q1.

Indica el rango donde se encuentra aproximadamente el 50% “central” de las
observaciones.

Concluimos que el 50% central de los datos se encuentra en una distancia de RQ unidades.

Captura

Para datos no agrupados, cuando el número de datos es impar, la posición de los cuartiles se halla multiplicando el número de datos por 1/4 y 3/4 respectivamente. Si da una fracción se promedia entre los valores que contienen esta fracción.

Ejemplo: número impar de datos. N=9

DATOS: 7, 9, 10, 12, 13, 14, 17, 18, 19

Captura

Posición del cuartil 1: N/4=9/4=2,5

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones dos y tres. Q1=(9+10)/2=9,5. Observe que el 25% está entre 22% y 33%.

Posición del cuartil 3: 3N/4=27/4=6,75.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones seis y siete. Q1=(14+17)/2=15,5. Observe que el 75% está entre 67% y 78%.

RIQ= Q3-Q1=15,5-9,5=6

Concluimos que el 50% central de los datos se encuentra en una distancia de 6 unidades.

Ejemplo: número par (even) de datos. N=6

DATOS: 4, 7, 9, 11, 12, 20

Captura

Posición del cuartil 1: N/4=9/4=2,5.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones dos y tres. Q1=(7+9)/2=8. 

Posición del cuartil 3: 3N/4=18/4=4,5

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones cuatro y cinco. Q3=(11+12)/2=11,5

RIQ= Q3-Q1=11,5-8=3,5

Concluimos que el 50% central de los datos se encuentra en una distancia de 3,5 unidades.

Ejemplo: número impar (odd) de datos. N=7

DATOS: 5, 8, 10, 10, 15, 18, 23

Captura

Posición del cuartil 1: N/4=7/4=1,75.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones uno y dos. Q1=(5+8)/2=6,5. Observe que el 25% está entre 14% y 29%.

Posición del cuartil 3: 3N/4=21/4=5,25.

Da una fracción. Se promedia entre los valores que ocupan las  Posiciones cinco y seis. Q1=(15+18)/2=16,5. Observe que el 75% está entre 71% y 86%

RIQ= Q3-Q1=16,5-6,5=10

Concluimos que el 50% central de los datos se encuentra en una distancia de 10 unidades.

Ejemplo: número impar de datos. N=13

Consideremos nuevamente los datos siguientes.

Captura

Posición del Cuartil UNO=N/4=13/4=3,25. Da una fracción. Posiciones 3 y 4.

Q1=(134+146)/2=140

Posición del Cuartil TRES=3N/4=3(13/4)=9,75. Da una fracción. Posiciones 9 y 10.

Q3 =(246+302)/2 = 274

RQ = Q3 – Q1 = 274 – 140 = 134

Concluimos que el 50% central de los datos se encuentra en una distancia de 134 unidades.

Rango semi-intercuartílico o desviación cuartil (DQ)

Es la mitad del rango intercuartil.

DQ= RQ/2= (Q3 -Q1)/2

Es afectado muy poco por datos extremos. Esto lo hace una buena medida de dispersión para distribuciones (DQ) se usa para construir los diagramas de caja y bigote

Captura

Rango percentil 10-90

Rp 10-90 = P90-P10

Captura

Rango semi percentil 10-90

Es la mitad del rango percentil 10-90.

Rango semi percentil 10-90 = (P90-P10)/2

Captura

DIAGRAMA DE CAJA Y BIGOTES

Los diagramas de caja y bigote (box plots) que sirven para visualizar la variabilidad de una variable y comparar distribuciones de la misma variable; además de ubicar valores extremos.

Un diagrama de caja y bigote es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos.

Los «bigotes» se usan para indicar variabilidad fuera de los cuartiles superior e inferior, y son las líneas que se extienden desde la caja hasta:

  • Los límites externos
  • Hasta 1,5 veces el RIC.

Cuando los datos se extienden más allá de esto, significa que hay valores atípicos.

Un valor atípico (en inglés outlier) es una observación que es numéricamente distante del resto de los datos. Los valores atípicos se representan a veces como puntos individuales que están en línea con los bigotes.

Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas.

Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.

Los valores atípicos son elementos que están muy lejos de la tendencia general y, pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra, pero no necesariamente son datos que se deban descartar. Por ejemplo, en un exámen la mayoría obtienen notas inferiores a 3,0 y una persona obtuvo un 5,0.

Los valores atípicos se consideran atípicos leves para:

  • Valores inferiores a Linferior=Q1–1.5·RIC
  • Valores superiores a Lsuperior= Q3+1.5·RIC

Q1 y Q3 determinan, pues, los llamados límites interiores o internos, a partir de los cuales la observación se considera un atípico leve.

Se pueden considerar valores atípicos extremos:

  • Valores inferiores a Lix= Q1–3·RIC
  • Valores superiores a Lsx=Q3+3·RIC

Los atípicos extremos son observaciones más allá de los límites externos.

Utilidad del diagrama de caja y bigotes:

  • Proporciona una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
  • Tienen la ventaja de ocupar menos espacio, pues ponen en una sola dimensión (en una recta horizontal o vertical) los datos de un histograma, facilitando así el análisis de la información
  • Permite comparar distribuciones entre muchos grupos o conjuntos de datos.

Por ejemplo,
Comparación distribución de edades
Comparación entrenamientos de un corredor
Comparación clasificación liga

Ver: http://inst-mat.utalca.cl/tem/sitiolmde/primero/guias-liceo/recuperacion/Diagrama_de_Caja_y_Bigotes-2.pdf

Captura

Fuente: https://datavizcatalogue.com/ES/metodos/diagrama_cajas_y_bigotes.html

Diagrama Cajas y Bigotes

Ver video DIAGRAMA DE CAJAS Y BIGOTES EN EXCEL

Diagrama de caja y bigotes usando EXCEL:

Captura

https://es.khanacademy.org/math/probability/data-distributions-a1/box–whisker-plots-a1/v/reading-box-and-whisker-plots

https://es.khanacademy.org/math/probability/data-distributions-a1/box–whisker-plots-a1/v/interpreting-box-plots

DESVIACIÓN MEDIA

La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula el promedio de las desviaciones de los datos respecto a la media aritmética. Pero la suma de las desviaciones y su promedio es siempre cero o cercana a cero (por los redondeos), así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media absoluta) y otra es tomando las desviaciones al cuadrado (varianza). Entiéndase que no es lo mismo desviación media que desviación media absoluta.

Captura

DESVIACIÓN MEDIA ABSOLUTA

Es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Captura

Captura

https://es.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/other-measures-of-spread/v/mean-absolute-deviation

VARIANZA

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Varianza es una palabra acuñada por el matemático y científico inglés Ronald Fisher (1890–1962).

Captura

Captura

La varianza muestral es el cálculo de la varianza de una muestra n.

La varianza poblacional es el cálculo de la varianza del total de la población N. Se calcula usando todos los datos de la población de estudio. Fuente: https://educar.doncomos.com/calcular-varianza

Una fábrica de varillas ha adquirido una máquina de producción de varillas. Un ingeniero quiere probar si la máquina produce las varillas con una variabilidad de la longitud de la varilla inferior a un nivel de σ = 0.065 (Desviación Estándar). Ver XLSTAT Su solución de análisis de datos https://help.xlstat.com/customer/es/portal/articles/2062452-prueba-de-varianza-en-una-muestra-en-excel?b_id=9283

El problema anterior ser resuelve haciendo un análisis de la varianza (ANOVA)

Con el estimador sesgado Sn se está subestimando el valor de la varianza poblacional. Con Sn-1, se tiene una mejor estimación de la varianza (0,39) pues se aproxima más al valor real de la varianza poblacional (1,00).

Ver video 1: Revisión e intuición del porqué se divide entre n-1 para la varianza muestral insesgada. https://www.youtube.com/watch?v=icL43NvY5vU&t=140s

Ver video 2: Por qué dividimos entre n -1 en la varianza | Khan Academy en Español. https://www.youtube.com/watch?v=QyjCBfkYUMY&t=10s

DESVIACIÓN TÍPICA O ESTÁNDAR

El resultado de la varianza a veces no es fácil de interpretar, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza.

La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es la inicial de su nominación en inglés.

 

Deja un comentario