ESCALA NOMINAL


Los valores en esta escala representan o identifican objetos, fenómenos, elementos o individuos que representan a un grupo, categoría o distribución según ciertas características, atributos, tipologías o nombres, asignándoles una denominación o símbolo, o etiqueta sin que implique ninguna relación de orden, distancia o proporción entre los objetos o fenómeno.
Por ejemplo, la variable cualitativa o no cuantitativa género presenta los atributos masculino y femenino. El 1 puede representar o identificar el atributo masculino, y el 2 al atributo femenino. No hay relación de orden, y por tanto no puede decirse que 1 es menor que 2, ni que la distancia entre 1 y 2 es 1, ni que 2 dividido 1 es 2.
- Los números asignados a las variables nos permiten establecer solamente relaciones de igualdad/desigualdad o diferencia entre los elementos de la variable. Asì, el número 1 nos permite establecer que es diferente de 2. Masculino diferente de femenino.
- La asignación de los valores de la variable se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Por tanto, se puede asignar 1 a femenino y 2 a masculino. Lo que no significa que las mujeres van primero que los hombres, por lo menos en estadística, aunque en la vida real estamos jodidos.
- Se pueden asignar valores como números 1, 2, 3, etc. letras como A, B, C, u otros símbolos como figuras, etc. Esto nos permite entonces asignar M para masculino en vez de 1, y F para femenino en vez de 2.
- Los números, figuras o letras asignados actúan como etiquetas para diferenciar. Los números u otros símbolos se usan para la distinción y clasificación de objetos, personas o características. Los símbolos que representan a las diversas clases de la escala pueden intercambiarse, llevando esto a cabo en forma consistente y completa. Es decir, es lo mismo asignar un 1 a masculino y un 2 a femenino, o hacerlo al contrario. Los símbolos que designan a los diferentes grupos en una escala nominal pueden intercambiarse sin alterar la información esencial de la escala.
- Cuando se utilizan números para representar las diferentes clases de una escala nominal, estos no poseen propiedades cuantitativas y sirven solamente para identificar las clases.
En una escala nominal, la operación de escalamiento consiste en partir de una característica dada y formar un conjunto de clases que se excluyen mutuamente.
La única relación implicada es la de equivalencia. Esto es, los miembros de cualquier clase deben ser equivalentes en la propiedad medida. Juan es masculino y Carlos es masculino, por tanto, ambos reciben la misma etiqueta o símbolo: 1, y se puede decir que 1 = 1, significando que Juan tiene el mismo atributo que Carlos.
Puesto que en una escala nominal la clasificación puede presentarse igualmente por cualquier conjunto de símbolos, se dice que es «única hasta una transformación de uno a uno». Tales transformaciones son llamadas a veces «grupos simétricos de transformaciones».
En esta escala hay que tener en cuenta que:
- No es posible que un mismo valor o sujeto esté en dos grupos a la vez. No se puede ser de 1 y 2 a la vez. O eres del género masculino o del femenino, pero no de ambos. Por lo tanto este nivel exige que las categorías sean mutuamente excluyentes entre sí.
- Los números no tienen valor más que como nombres o etiquetas de las categorías o grupos. El uso de un número es para identificar y es aleatorio y depende del capricho personal a quien otorga el número.
- Las variables de este tipo nombran e identifican distintas categorías sin seguir un orden. No tienen orden, a pesar de etiquetarse con números.
- La única operación que es posible hacer es de igualdad o desigualdad (diferente de). La relación lógica que se expresa es: A = B (A igual a B) o A ≠ B (A es diferente de B) .
- Un número no tiene mayor valor que otro. El número mayor no significa que tiene el mayor atributo que el número menor. No es posible hacer operaciones de comparación “mayor que” o “menor que”.
- Tampoco es posible realizar operaciones tales como la adición, la sustracción, multiplicación ni división.
EL CERO EN LA ESCALA NOMINAL
El cero no tiene el sentido de ausencia de atributo. Es solo una etiqueta que pudo haber colocado como se hace con el 1 o el 2.
En la escala de medición nominal, como su nombre indica, se utilizan categorías o etiquetas para clasificar elementos sin ningún orden ni jerarquía inherentes. En esta escala, no existe ningún concepto de magnitud numérica ni operaciones matemáticas significativas. Por lo tanto, hablar de «cero» en la escala de medición nominal no tiene un significado matemático o numérico real.
En una escala nominal, los valores simplemente se utilizan para etiquetar o categorizar elementos en diferentes grupos. Por ejemplo, en una escala nominal de «Color de ojos» con las categorías «Azul», «Verde», «Marrón» y «Negro», no tiene sentido decir que «Azul» es mayor o menor que «Marrón» en términos de magnitud.
En resumen, en la escala de medición nominal, no se aplica el concepto de «cero» en el sentido numérico como se hace en otras escalas de medición, como la escala de intervalo o la escala de razón.
Estadísticas de tipo descriptivo admisibles en el nivel de mediciòn nominal
- Las estadísticas de tipo descriptivo admisibles en este nivel son aquellas que no se alteran por el proceso de escalamiento: la moda, la frecuencia absoluta, la frecuencia relativa y el conteo que nos permite determinar el número de datos.
- La única medida de tendencia central que se puede hacer es la moda. Por ejemplo, para indicar que en un grupo hay muchos elementos con la etiqueta 1, más que la 2, entonces la moda es 1.
Ejemplo: Análisis de Factores de Riesgo para una Enfermedad Cardíaca en Pacientes Hospitalizados
LA MODA
En este ejemplo, se realiza un estudio en un hospital para analizar los factores de riesgo asociados con enfermedades cardíacas en 200 pacientes hospitalizados. Las dos variables cualitativas que se considerarán son «Hábito de Fumar» y «Historial Familiar de Enfermedad Cardíaca».
Variable 1: Hábito de Fumar
- Opciones: Sí, No
- Se registra si el paciente es fumador o no.
Variable 2: Historial Familiar de Enfermedad Cardíaca
- Opciones: Sí, No
- Se registra si el paciente tiene un historial familiar de enfermedad cardíaca.
Después de recopilar los datos de los pacientes hospitalizados, se pueden resumir en tablas y calcular la moda para cada variable:
Tabla de Frecuencia para la Variable «Hábito de Fumar»
| Hábito de Fumar | Frecuencia |
|---|---|
| Sí | 68 |
| No | 132 |
La moda aquí es «No», lo que indica que la mayoría de los pacientes hospitalizados no son fumadores.
Tabla de Frecuencia para la Variable «Historial Familiar de Enfermedad Cardíaca»
| Historial Familiar de Enfermedad Cardíaca | Frecuencia |
|---|---|
| Sí | 45 |
| No | 155 |
En este caso, la moda es «No», lo que sugiere que la mayoría de los pacientes hospitalizados no tienen un historial familiar de enfermedad cardíaca.
Interpretación: Basándonos en los datos recopilados, podemos concluir que la mayoría de los pacientes hospitalizados no tienen el hábito de fumar ni un historial familiar de enfermedad cardíaca. Esto puede ser útil para los médicos y profesionales de la salud al evaluar los factores de riesgo en los pacientes y brindar un enfoque más personalizado en la prevención y el tratamiento de enfermedades cardíacas.
Este ejemplo ilustra cómo el análisis de la moda en variables cualitativas puede proporcionar información relevante sobre los factores de riesgo asociados con una enfermedad en un entorno hospitalario.
La dispersión estadística se puede hacer con tasa de variación (el cambio en porcentaje entre dos valores), el índice de variación cualitativa, o mediante entropía de información. No existe la desviación estándar.
Actividad: Investigar Medidas de dispersión de variables cualitativas.
Fuente: http://ocw.uv.es/ciencias-de-la-salud/pruebas-1/1-3/t_04.pdf
Un ejemplo de variable nominal perteneciente a esta escala nominal es el género, cuyos atributos o características son no numéricas, hombre y mujer, y podemos asignarles un valor numérico 1 a los hombres y otro diferente, por ejemplo, 2, a las mujeres y por más machistas o feministas que seamos no podríamos establecer que 2 es mayor que 1. También se pudo haber elegido H para Hombres y M para Mujeres. A veces, en nuestra aula de clase asignamos 1 a los hombres y 2 a las mujeres, para desarrollar alguna actividad.
Otras veces, asignamos 1 a la primera fila de la clase, 2 a la segunda fila, 3 a la tercera, 1 a la cuarta, 2 a la quinta, 3 a la sexta, etc., hasta que el grupo queda dividido en tres categorías, con el objetivo de evitar trampas a la hora de hacer un examen.
Otro ejemplo es el nombre de las ciudades: solo podemos diferenciarlas entre sí de acuerdo con esta escala.
El número de las camisetas de los jugadores de fútbol o de baloncesto es un atributo numérico que solo sirve para identificarlos y diferenciarlos del resto de jugadores, no podemos establecer ningún tipo de orden o de gradación en función de este número. El valor que se le asigna al atributo numérico es el mismo pues ya hay una clara diferencia numérica entre ellos.
Los gráficos más usados con este tipo de variables son los de Sectores, los de Barras, los de líneas y los pictogramas.

Histograma para el Ejemplo de Factores de Riesgo de Enfermedad Cardíaca:
Para este ejemplo, podríamos crear un histograma que muestre la distribución de pacientes según su hábito de fumar y su historial familiar de enfermedad cardíaca. En este caso, el eje horizontal podría representar las opciones (sí o no) y el eje vertical podría representar la frecuencia o el número de pacientes.
EJEMPLO
Para comprender mejor la razón de estos procedimientos vamos a realizar el análisis de la variable Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2); en donde el valor uno (1) representa al género Femenino y el valor dos (2) al género Masculino. Las frecuencias y sus respectivos porcentajes para esta variable serían los expuestos en la tabla.


Ahora si hallamos las principales medidas de tendencia central, obtenemos los resultados expuestos en la tabla. Si nos fijamos en los resultados notaremos que la Media toma el valor 1.20, el cual nos indica que en promedio los encuestados cuenta con un género de (1.20). Este resultado no posee una interpretación aplicable a la información de la variable, por lo que esta medida no es de utilidad en el análisis descriptivo.
Si observamos la Mediana notaremos que toma el valor 1,00, que para el caso corresponde al género Femenino, pero si en vez de 10 valores tuviéramos únicamente dos (1 y 2), la mediana sería de (1,5), cuya interpretación no es aplicable a la información de la variable.
Encontramos la Moda, la cual para el caso asume el valor 1 y nos indica que la categoría con mayor frecuencia dentro de la variable es la correspondiente al género Femenino.
La tasa de variación o razón de variación (RV)
Se obtiene a partir de la siguiente expresión:

Donde fMo representa la frecuencia absoluta de la categoría de la variable que sea la moda.
La RV indica el grado en que los valores observados en la muestra no coinciden con el de la moda. Cuanto más próximo sea fMo a N, más cercano a 0 será RV, indicando que el valor de muchos casos coincide con el de la moda (poca dispersión).

Se deduce entonces, en este ejemplo que los datos están poco dispersos respecto a la moda. El 80% de los encuestados son mujeres. Cuanto menor sea la frecuencia absoluta de la moda respecto al tamaño de la muestra y, por lo tanto, mayor la frecuencia absoluta de otros valores que no son la moda, más próximo a 1 será RV (mucha dispersión).
EJEMPLO
Vamos a simular el proceso completo utilizando datos ficticios basados en enfermedades reales, y presentaré tablas de resumen para una mejor visualización.
Escenario: Evaluación de Recursos Médicos para Tratar la Diabetes Tipo 2 (Años 2020 y 2021)
Paso 1: Recopilación de Datos Iniciales El equipo médico del hospital recopila datos sobre el número de pacientes con Diabetes Tipo 2 y los recursos médicos utilizados durante los años 2020 y 2021.
| Año | Número de Pacientes | Recursos Médicos por Paciente |
| 2020 | 180 | 7 unidades |
| 2021 | 210 | 6 unidades |
Paso 2: Cálculo de la Tasa de Variación Calculamos la tasa de variación en el número de pacientes con Diabetes Tipo 2 entre 2020 y 2021:
RV en el número de pacientes = ((Número de pacientes en 2021 – Número de pacientes en 2020) / Número de pacientes en 2020) * 100
RV en el número de pacientes = ((210 – 180) / 180) * 100 = 16.67%
Calculamos la RV en el uso de recursos médicos por paciente:
RV en recursos médicos por paciente = ((Recursos médicos por paciente en 2021 – Recursos médicos por paciente en 2020) / Recursos médicos por paciente en 2020) * 100
RV en recursos médicos por paciente = ((6 – 7) / 7) * 100 = -14.29%
Paso 3: Interpretación de los Resultados Interpretemos los resultados basados en las tasas de variación calculadas:
- El número de pacientes con Diabetes Tipo 2 aumentó en un 16.67% en 2021 en comparación con 2020, lo que podría indicar un aumento en la incidencia de la enfermedad o una mayor conciencia y detección.
- El uso de recursos médicos por paciente disminuyó en un 14.29% en 2021 en comparación con 2020, lo que podría sugerir mejoras en la eficiencia del tratamiento o la adopción de enfoques terapéuticos más efectivos.
Paso 4: Tablas de Resumen A continuación, presento las tablas de resumen para los datos y las tasas de variación:
Tabla de Datos:
| Año | Número de Pacientes | Recursos Médicos por Paciente |
| 2020 | 180 | 7 unidades |
| 2021 | 210 | 6 unidades |
Tabla de Tasas de Variación:
| Tasa de Variación (%) | Número de Pacientes | Recursos Médicos por Paciente |
| RV en Número de Pacientes | 16.67% | |
| RV en Recursos Médicos por Paciente | -14.29% |
Paso 5: Toma de Decisiones Basándonos en las tasas de variación calculadas, el hospital podría considerar:
- Dado el aumento en el número de pacientes, podrían planificar una ampliación de la capacidad de tratamiento y recursos para abordar la creciente demanda de pacientes con Diabetes Tipo 2.
- Ante la disminución en el uso de recursos médicos por paciente, podrían evaluar la posibilidad de mantener la calidad del tratamiento mientras optimizan la asignación de recursos y reducen costos.
Nota: Esta simulación utiliza datos ficticios basados en la Diabetes Tipo 2 y se presenta una interpretación general de las tasas de variación en el contexto de la toma de decisiones hospitalarias. Las decisiones reales serían más complejas y considerarían factores adicionales, como la disponibilidad de recursos médicos específicos, las necesidades de los pacientes y las mejores prácticas clínicas.
El índice de variación cualitativa (IVC)
El índice de variación cualitativa es una medida estadística que se utiliza para cuantificar la variabilidad o diversidad de una variable cualitativa o categórica. Este índice se utiliza para analizar la dispersión de las categorías o clases en una distribución de frecuencias.
Cuando se trata de una variable cualitativa, no estamos trabajando con valores numéricos, sino con categorías o clases. El índice de variación cualitativa proporciona una medida de la heterogeneidad o homogeneidad de las categorías en la distribución de la variable. Cuanto mayor sea el índice de variación, mayor será la diversidad de categorías presentes en la muestra.
El índice de variación cualitativa puede calcularse utilizando diferentes fórmulas, dependiendo del contexto y el enfoque específico. Uno de los métodos comunes es el índice de diversidad de Gini, que se utiliza para medir la desigualdad en la distribución de frecuencias de una variable cualitativa. También existen otros índices y métodos para medir la variación cualitativa, como el índice de Shannon o el índice de Herfindahl-Hirschman.
- el índice de diversidad de Gini
El índice de Gini se utiliza para medir la desigualdad en la distribución de frecuencias de una variable cualitativa. La fórmula es:

- el índice de Shannon (Entropía):
El índice de Shannon se utiliza para medir la incertidumbre o la cantidad de información promedio en una distribución de frecuencias. La fórmula es:

- el índice de Herfindahl-Hirschman.
El índice de Herfindahl-Hirschman (HHI) mide la concentración en una distribución de frecuencias. Es comúnmente utilizado en economía y antimonopolio. La fórmula es:

En resumen, el índice de variación cualitativa es una herramienta que nos permite entender cómo se distribuyen las categorías en una variable cualitativa y proporciona una medida de la heterogeneidad o diversidad de esas categorías.


https://revistas.usb.edu.co/index.php/Psychologia/article/view/5642/5014
Se obtiene a través de la siguiente fórmula,

Donde:
- k es el número de categorías de la variable y
- hi la frecuencia relativa asociada a cada una de ellas.




El IVC expresa el grado en que los casos están dispersos en las diferentes categorías de la variable, alcanzando su máximo (IVC = 1) en el caso en que las frecuencias relativas sean iguales para todas las categorías de la variable (caso que se corresponde al de una variable con una distribución uniforme). El IVC sería igual a 0 cuando la frecuencia relativa de una categoría de la variable fuese igual a 1, esto es, el caso en que todos los casos tuviesen el mismo valor observado en la variable (dispersión nula).
- IVC = 1, distribución uniforme, las frecuencias relativas sean iguales para todas las categorías de la variable
Ejemplo: La variable Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 2, 2, 2, 2, 2); en donde el valor uno (1) representa al género Femenino y el valor dos (2) al género Masculino.



- IVC = 0, dispersión nula, la frecuencia relativa de una categoría de la variable fuese igual a 1
Ejemplo: La variable Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 1, 1); en donde el valor uno (1) representa al género Femenino y el valor dos (2) al género Masculino.


Entropía de información
La entropía de la información es una medida que nos ayuda a entender cuánta sorpresa o incertidumbre hay en un conjunto de datos.
Algunas palabras que pueden usarse como sinónimos de «entropía» en ciertos contextos sin perder completamente su esencia son:
- Incertidumbre: La entropía está relacionada con la incertidumbre o la falta de información en un sistema.
- Desorden: La entropía también puede entenderse como una medida de desorden o caos en un sistema.
- Aleatoriedad: La entropía refleja la aleatoriedad o imprevisibilidad de un conjunto de datos o eventos.
- Sorpresa: La entropía está vinculada a cuánto nos sorprende o desconcierta la información o los resultados.
- Complejidad: En algunos contextos, la entropía puede indicar la complejidad o la variedad de un sistema.
- Diversidad: La entropía puede reflejar la diversidad o la amplitud de opciones en una distribución de datos.
- Información: La entropía también se relaciona con la cantidad de información contenida en un conjunto de datos o eventos.
- Caos: Similar a «desorden», la entropía puede relacionarse con el concepto de caos en ciertas interpretaciones.
Es importante tener en cuenta que mientras estas palabras comparten ciertos aspectos conceptuales con «entropía», cada una puede enfatizar diferentes aspectos en función del contexto en el que se utilicen.
La fórmula de la entropía en el contexto de la teoría de la información es la siguiente:
Entropía (H) = -Σ (p * log2(p))
Donde:
- H es la entropía de la distribución de probabilidad.
- Σ representa la suma sobre todos los valores posibles.
- p es la probabilidad de cada valor en la distribución.
- log2(p) es el logaritmo en base 2 de la probabilidad p.
Ahora, vamos a explicar cada parte de la fórmula:
- -Σ (p * log2(p)): Esta parte representa la suma ponderada de las probabilidades de los diferentes valores multiplicadas por el logaritmo en base 2 de esas probabilidades. El resultado de esta operación se toma negativo, lo cual es importante para asegurarnos de que la entropía sea siempre un valor positivo o nulo.
- p: Este término se refiere a la probabilidad de cada valor posible en la distribución. En el contexto de la entropía, se trata de cuán común o frecuente es un valor en relación con los otros valores.
- log2(p): Aquí, log2 es el logaritmo en base 2 de la probabilidad p. El logaritmo se usa para medir la «sorpresa» o incertidumbre asociada con la probabilidad. Si la probabilidad es alta (cerca de 1), el logaritmo es bajo, lo que significa que hay menos sorpresa. Si la probabilidad es baja (cerca de 0), el logaritmo es alto, lo que significa que hay más sorpresa.
En resumen, la fórmula de la entropía mide cuánta «sorpresa» o incertidumbre hay en una distribución de probabilidad. Si todos los valores son igualmente probables, la entropía es máxima y hay máxima incertidumbre. Si un valor es mucho más probable que los demás, la entropía es menor y hay menos incertidumbre.
CASO A:
Ejemplo: Imagina que tienes una variable como «género» que solo puede tener dos valores: masculino o femenino. La variable Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2); en donde el valor uno (1) representa al género Femenino y el valor dos (2) al género Masculino.
Si los datos están mezclados al azar (tanto masculino como femenino), hay sorpresa, y la entropía es alta. 8 femeninos y 2 masculinos: En este caso, hay cierta mezcla, pero no está equilibrada. La proporción de géneros no es uniforme, lo que sugiere cierta variabilidad pero no es la máxima mezcla posible.
Calcularé la entropía para el CASO A de la variable Género utilizando los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2). Aquí tienes los cálculos paso a paso:
Paso 1: Contar las Ocurrencias de Cada Valor
Contamos cuántas veces aparece cada valor en la variable Género:
- Valor 1 (Femenino): 8 veces
- Valor 2 (Masculino): 2 veces
Paso 2: Calcular las Proporciones de Cada Valor
Calculamos las proporciones de cada valor en relación al total de valores (10 en total):
- Proporción de Femenino (p1) = 8 / 10 = 0.8
- Proporción de Masculino (p2) = 2 / 10 = 0.2
Paso 3: Calcular la Entropía
Usamos la fórmula de la entropía de la información para cada valor y luego sumamos ambos valores:
Entropía (H) = – p1 * log2(p1) – p2 * log2(p2)
Sustituyendo los valores de proporción:
- Entropía (H) = – 0.8 * log2(0.8) – 0.2 * log2(0.2)
Calculamos los logaritmos y multiplicaciones:
- Entropía (H) = – 0.8 * (-0.3219) – 0.2 * (-2.3219)
- Entropía (H) = 0.2575 + 0.4644
- Entropía (H) = 0.7219
- La entropía de la información para la variable Género es aproximadamente 0.7219.
Interpretación: La entropía de 0.7219 indica que hay una moderada cantidad de incertidumbre o «sorpresa» en la distribución de género en los valores proporcionados. Aunque la mayoría de los valores son del género Femenino (con una proporción del 80%), la presencia de algunos valores del género Masculino (con una proporción del 20%) contribuye a cierta variabilidad y equilibrio en la distribución, lo que resulta en una entropía más alta.
Una entropía de 0.7219 significa que la distribución de género no es completamente uniforme ni completamente desequilibrada. Aunque hay una mayoría de un género (8 femeninos), todavía hay un poco de variabilidad debido a la presencia de ambos géneros en los datos. La entropía captura esa variabilidad y nos indica cuánta «sorpresa» hay en la distribución. Hay algo de mezcla en los géneros, pero aún hay una tendencia hacia un género en particular (en este caso, femenino).
La entropía de 0.7219 indica que hay una moderada cantidad de incertidumbre o «sorpresa» en la distribución de género en los valores proporcionados. Aunque la mayoría de los valores son del género Femenino (con una proporción del 80%), la presencia de algunos valores del género Masculino (con una proporción del 20%) contribuye a cierta variabilidad y equilibrio en la distribución, lo que resulta en una entropía más alta.
CASO B:
Calcularé la entropía para el CASO B de la variable Género utilizando los valores (1, 1, 1, 1, 1, 2, 2, 2, 2, 2). Aquí tienes los cálculos paso a paso:
Paso 1: Contar las Ocurrencias de Cada Valor
Contamos cuántas veces aparece cada valor en la variable Género:
- Valor 1 (Femenino): 5 veces
- Valor 2 (Masculino): 5 veces
Paso 2: Calcular las Proporciones de Cada Valor
Calculamos las proporciones de cada valor en relación al total de valores (10 en total):
- Proporción de Femenino (p1) = 5 / 10 = 0.5
- Proporción de Masculino (p2) = 5 / 10 = 0.5
Paso 3: Calcular la Entropía
Usamos la fórmula de la entropía de la información para cada valor y luego sumamos ambos valores:
Entropía (H) = – p1 * log2(p1) – p2 * log2(p2)
Sustituyendo los valores de proporción:
- Entropía (H) = – 0.5 * log2(0.5) – 0.5 * log2(0.5)
Calculamos los logaritmos y multiplicaciones:
- Entropía (H) = – 0.5 * (-1) – 0.5 * (-1)
- Entropía (H) = 0.5 + 0.5
- Entropía (H) = 1
La entropía de la información para la variable Género es 1.
Interpretación: La entropía de 1 indica que hay una máxima incertidumbre o «sorpresa» en la distribución de género en los valores proporcionados. La distribución es completamente equilibrada, con igual cantidad de valores del género Femenino y Masculino (50% cada uno), lo que resulta en la máxima entropía posible. No podemos predecir con certeza qué género encontraremos en una observación dada, lo que refleja la alta variabilidad y mezcla en la distribución de género.
Si los datos están mezclados al azar (tanto masculino como femenino), hay más sorpresa, y la entropía es alta. 5 masculinos y 5 femeninos: En este caso, los géneros están completamente equilibrados, lo que significa que hay una mezcla máxima y uniforme. La entropía será alta porque no es fácil predecir el género en una observación dada. Si la entropía fuera más cercana a 1, significaría que la distribución es muy equilibrada y hay una cantidad casi igual de cada género, lo que implicaría menos sorpresa o incertidumbre.
CASO C:
Calcularé la entropía de la variable Género utilizando los valores (2, 2, 2, 2, 2, 2, 2, 2, 2, 2). Aquí tienes los cálculos paso a paso:
Paso 1: Contar las Ocurrencias de Cada Valor
Contamos cuántas veces aparece cada valor en la variable Género:
- Valor 1 (Femenino): 0 veces
- Valor 2 (Masculino): 10 veces
Paso 2: Calcular las Proporciones de Cada Valor
Calculamos las proporciones de cada valor en relación al total de valores (10 en total):
- Proporción de Femenino (p1) = 0 / 10 = 0
- Proporción de Masculino (p2) = 10 / 10 = 1
Paso 3: Calcular la Entropía
Dado que la proporción de género Femenino (p1) es 0, el término – p1 * log2(p1) se anula (0 * log2(0) = 0). Por lo tanto, solo necesitamos calcular el término relacionado con el género Masculino:
Entropía (H) = – p2 * log2(p2)
Sustituyendo el valor de proporción:
- Entropía (H) = – 1 * log2(1)
Dado que log2(1) = 0, el término se anula:
- Entropía (H) = 0
La entropía de la información para la variable Género es 0.
Interpretación: La entropía de 0 indica que no hay incertidumbre o «sorpresa» en la distribución de género en los valores proporcionados. Todos los valores son del género Masculino (100%), lo que resulta en una distribución completamente predecible y sin variabilidad. La entropía es mínima en este caso.
Si todos los datos en tu conjunto son del mismo género (por ejemplo, todos son masculinos), no hay sorpresa, y la entropía es baja. 10 masculinos y 0 femeninos: En este caso, no hay mezcla ni variedad en los géneros. La distribución es uniforme, pero solo en un género. Por lo tanto, la entropía será baja porque la previsibilidad es alta.
En resumen, la entropía será mayor en el caso donde hay una mezcla máxima y uniforme de géneros, es decir, cuando hay igual cantidad de masculinos y femeninos. La entropía será menor cuando no hay mezcla o variabilidad en la distribución de géneros.

Imagina que estás jugando a adivinar el género de las personas en una habitación. Si te dicen que todos son del mismo género, no tienes que adivinar mucho, ¡es fácil! Pero si no te dicen nada y tienes que adivinar entre dos opciones igualmente posibles, es más difícil y tienes más incertidumbre, ¡es como un juego de adivinanzas!
Ejemplo: Decisión sobre Programas de Prevención de Enfermedades en un Hospital
Supongamos que tienes los siguientes datos recopilados en un hospital:
| Enfermedad | Total de Pacientes | Género Femenino | Género Masculino |
| Diabetes tipo 2 | 100 | 60 | 40 |
| Hipertensión | 50 | 20 | 30 |
| Cáncer de Mama | 80 | 60 | 20 |
Paso 1: Recopilación de Datos: Tienes datos sobre la distribución de género de los pacientes diagnosticados con diferentes enfermedades.
Paso 2: Cálculo de Entropía:
Para calcular la entropía, usamos la fórmula -p * log2(p), donde «p» es la proporción de género en cada enfermedad.
| Enfermedad | Proporción Femenino | Proporción Masculino | Entropía Femenino | Entropía Masculino |
| Diabetes tipo 2 | 0.6 | 0.4 | 0.2923 | 0.5288 |
| Hipertensión | 0.4 | 0.6 | 0.5288 | 0.2923 |
| Cáncer de Mama | 0.75 | 0.25 | 0.2444 | 0.5 |
Paso 3: Análisis de Resultados:
Observamos que en las enfermedades Diabetes tipo 2 y Hipertensión, la entropía es más alta, indicando una distribución de género más equilibrada. Sin embargo, en el caso del Cáncer de Mama, la entropía es más baja, lo que sugiere un desequilibrio en la distribución de género.
Paso 4: Identificación de Patrones:
Vemos que el Cáncer de Mama afecta principalmente a mujeres, lo que podría indicar la necesidad de desarrollar un enfoque específico para prevención y tratamiento en las mujeres.
Paso 5: Toma de Decisiones:
Basándonos en estos resultados, decidimos desarrollar un programa de concienciación y prevención dirigido a las mujeres para el Cáncer de Mama, con el objetivo de abordar la alta prevalencia de esta enfermedad en ese grupo.
Paso 6: Evaluación y Ajustes:
Implementamos el programa y monitoreamos su efectividad a lo largo del tiempo. Medimos la disminución de nuevos casos de Cáncer de Mama en mujeres y seguimos calculando la entropía para asegurarnos de que la distribución de género se esté equilibrando con el tiempo.
En este ejemplo, la entropía de la información ayuda a identificar patrones en la distribución de género en diferentes enfermedades y guía la toma de decisiones para programas de prevención y concienciación específicos.
En resumen, la entropía de la información es una manera de medir cuánta variedad o incertidumbre hay en un conjunto de datos, como el género, donde más mezcla significa más sorpresa y, por lo tanto, una entropía más alta. ¡Es como medir cuán sorprendente es un conjunto de información!
RESUMEN ESCALA NOMINAL

Las medidas de dispersión (desviación estándar, varianza, coeficiente de variación) y distribución (asimetría y curtosis) no son aplicables a este tipo de variables ya que sus ecuaciones nos permiten determinar como se comportan los datos respecto a un punto central o media. Si hallamos la desviación estándar para los datos del ejemplo, obtendríamos un valor de 0.42164, que nos indicaría que el promedio del género presenta una variación de ±0.42, cuyo resultado no sería aplicable a la interpretación de la variable. fuente: http://www.spssfree.com/curso-de-spss/analisis-descriptivo/escalas-de-medida.html ¿Cómo hacer preguntas de género en una encuesta? https://www.questionpro.com/blog/es/preguntas-de-genero/
Debe estar conectado para enviar un comentario.