CAPÍTULO 05A: Análisis Estadístico

Análisis estadístico

Estadística inductiva, inferencia estadística o estadística inferencial: Involucra la utilización de una muestra representativa de la población para sacar alguna inferencia o conclusión sobre la población de la cual hace parte la muestra. Como la conclusión no es del todo exacta, se emplean las probabilidades.

Ejemplo:

Cuando el Ministerio de Trabajo utiliza el ingreso promedio de una muestra de varios miles de trabajadores para calcular el ingreso promedio de los 121 millones de trabajadores, está utilizando estadística inferencial.

Estadística descriptiva o deductiva: Es la parte de la estadística que sólo se ocupa de describir y analizar un grupo o muestra dado, sin sacar conclusiones sobre un grupo mayor o población. Es el proceso de recolectar, agrupar y presentar datos de una manera tal que describa fácil y rápidamente dichos datos. La estadística descriptiva pone en evidencia ciertas características de forma más objetiva y útil. La estadística descriptiva investiga los métodos y procedimientos y establece reglas para que el manejo de los datos sea más eficiente y para que la información entregada resulte confiable, además de expresar en un lenguaje sencillo la información para que cualquier persona la comprenda y pueda establecer comparaciones y/o tomar decisiones.

Datos agrupados: Datos organizados en clases. El proceso de agrupamiento puede destruir detalles de los datos iniciales, pero ofrece una visión nítida y saca a la luz relaciones que son evidentes.

Datos no agrupados:  Datos en bruto o datos que no han sido ordenados en clases, tal que no se puede obtener información útil y significativa, y por lo tanto hacen difícil llegar a una conclusión simplemente revisando los datos anotados.

Intervalo de clase: Es un símbolo que define una clase, y se define como el rango de valores encontrados dentro de una clase. Es deseable que todos los intervalos sean de igual tamaño, ya que facilita las interpretaciones estadísticas.

Límites de clase: Números extremos de los intervalos de clase.

Límite inferior de clase:  Número extremo izquierdo o inferior del intervalo de clase.

Límite superior de clase: Numero extremo derecho o superior del intervalo de clase.

Intervalo de clase abierto: Intervalo de clase que carece de límite superior o inferior.

Ejemplo: El intervalo de clase: 65 años o más.

Fronteras de clase: verdaderos límites de clase o límites reales de clase. Números exactos que se obtienen promediando el límite superior de un intervalo de clase con el inferior del siguiente. A veces se usan las fronteras de clase como símbolos para la clase, en vez de los intervalos de clase. Para evitar ambigüedad en la notación, las fronteras no deben coincidir con valores realmente medidos.

Frontera inferior: Número extremo izquierdo o inferior de la frontera de clase.

Frontera superior: Número extremo derecho o superior de la frontera de clase.

Tamaño, ancho o longitud de un intervalo de clase (C): Diferencia entre las fronteras de clase superior e inferior. También es la diferencia entre dos límites superiores o entre dos límites inferiores de dos clases sucesivas.

Marca de clase (M): Es el punto medio del intervalo de clase y se obtiene promediando los límites superior e inferior de un intervalo de clase.

Estadístico: Elemento que describe una muestra y sirve como una estimación del parámetro de la población correspondiente. Es la medida descriptiva de una muestra. Calculo resumido de mediciones realizadas en una muestra para estimar un parámetro de la población. El estadístico es a la muestra lo que el parámetro es a la población.

Ejemplo:

El ingreso promedio de la muestra de asalariados de Estados Unidos.

La producción total de la muestra de plantas manufactureras.

Edad promedio de la muestra de estudiantes.

Estadísticos, estadígrafos o descriptivos básicos:

  • Índices de tendencia central: media aritmética, mediana, moda, suma
  • Índices de posición (valores percentiles): cuartiles, quintiles, deciles, centiles,
  • Índices de dispersión: desviación estándar o típica, varianza, rango
  • Índices de distribución o de forma: asimetría, curtosis

Tabla o distribución de frecuencias: Disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase. La tabla de frecuencias permite expresar de manera inmediata el resultado de un conjunto de mediciones realizadas en las mismas condiciones pero que arrojan valores diferentes.

Reglas para formar distribuciones de frecuencia

Paso 1: Determinar el menor y el mayor de todos los datos

Paso 2: Hallar el rango.

Paso 3: Calcular el número de clases. El número adecuado de intervalos de clase depende del número total de mediciones. Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Se suelen tomar entre 5 y 18 o 20 intervalos de clase, según los datos. Si los intervalos son muy pocos se pierden detalles, y si son muchos no es posible observar patrones, además de hacerse más dispendioso el trabajo. Se puede seguir una regla simple para aproximar en número de clases:

Los intervalos de clase se eligen de modo que las marcas de clase coincidan con datos realmente observados. Ello tiende a disminuir el error de agrupamiento.

Paso 4: Determinar las frecuencias de clase.

Ejemplo:

La siguiente tabla reúne las longitudes en metros de 100 varillas, manufacturadas por la fábrica ABC, ordenadas de menor a mayor.

Se eligieron siete intervalos de clase:

Histograma: es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una «primera vista» general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica.

Para construir el histograma se definen m = intervalos de clase y se grafica el histograma de frecuencias absolutas fi, es decir, el número de mediciones que caen dentro de cada intervalo.

La suma de las frecuencias absolutas fi es igual al número total de mediciones n:

También es conveniente graficar un histograma de frecuencias relativas hi, el cociente entre las frecuencias absolutas y el número total de mediciones n

Si se utilizan las frecuencias relativas, la suma es uno o 100%:

El histograma de frecuencias absolutas y relativas correspondiente a la distribución de frecuencias de las 100 varillas puede verse en la siguiente figura.

El histograma permite estimar visualmente el valor central de la distribución, su dispersión y su sesgo (o asimetría).

Medidas de tendencia central: Moda, Mediana y Media

Moda: Corresponde al valor de la variable que ocurre más veces, Si hay datos con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

Moda para datos no agrupados (en intervalos): Corresponde al valor de la variable que ocurre más veces.

Moda para datos agrupados (en intervalos): la moda es la marca de clase del intervalo en la que el histograma alcanza un máximo. La marca de clase es el valor medio del intervalo de clase.

Como los datos de nuestro ejemplo tienen dos modas, obtenemos el promedio de ambas. Este puede obtenerse de la gráfica, a partir del promedio de las marcas de clase modales.

Mediana: Después de ordenar todos los datos, la mediana es aquel situado en la mitad del conjunto.

Mediana para datos no agrupados en intervalos: Si ordenamos todos los datos de manera creciente, la mediana es aquel situado en la mitad del conjunto, si el número de datos es impar; y es el promedio de los dos valores centrales si el número de datos es par.

Mediana para datos agrupados en intervalos: La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. Es decir, tenemos que buscar el intervalo en el que se encuentre n/2. Al observar la tabla de frecuencias encontramos que el intervalo mediano es el cuarto intervalo, con i=4, y la mediana está en el intervalo:

i=4

Media: También se conoce como promedio, valor medio o media aritmética. Se define como:

 

Medidas de dispersión o de variabilidad

Las medidas de dispersión miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Rango o recorrido: El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación: La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética. Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula el promedio de las desviaciones de los datos respecto a la media aritmética. Pero la suma de las desviaciones y su promedio es siempre cero o cercana a cero (por los redondeos), así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza).

Desviación media: Es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Varianza: La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. Varianza es una palabra acuñada por el matemático y científico inglés Ronald Fisher (1890–1962).

Podemos calcular la varianza muestral, es decir, cuando tenemos una población extremadamente grande, tomaremos una muestra y de ahí se estimarán los resultados.

La varianza poblacional es el cálculo de la varianza del total de la población. Se calcula usando todos los datos de la población de estudio. Fuente: https://educar.doncomos.com/calcular-varianza

Una fábrica de varillas ha adquirido una máquina de producción de varillas. Un ingeniero quiere probar si la máquina produce las varillas con una variabilidad de la longitud de la varilla inferior a un nivel de σ = 0.065 (Desviación Estándar). Ver XLSTAT Su solución de análisis de datos https://help.xlstat.com/customer/es/portal/articles/2062452-prueba-de-varianza-en-una-muestra-en-excel?b_id=9283

El problema anterior ser resuelve haciendo un análisis de la varianza (ANOVA)

Con el estimador sesgado Sn se está subestimando el valor de la varianza poblacional. Con Sn-1, se tiene una mejor estimación de la varianza (0,39) pues se aproxima más al valor real de la varianza poblacional (1,00).

Ver video 1: Revisión e intuición del porqué se divide entre n-1 para la varianza muestral insesgada. https://www.youtube.com/watch?v=icL43NvY5vU&t=140s

Ver video 2: Por qué dividimos entre n -1 en la varianza | Khan Academy en Español. https://www.youtube.com/watch?v=QyjCBfkYUMY&t=10s

Desviación típica o estándar: El resultado de la varianza a veces no es fácil de interpretar, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es la inicial de su nominación en inglés.

Avatar de Desconocido

Acerca de giovannihr2005

Profesor de Analisis de Circuitos en la Universidad Santo Tomás de Medellin
Esta entrada ha sido publicada en CAPÍTULO 05A: Análisis Estadístico y etiquetada como , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Guarda el enlace permanente.

Deja un comentario