Calculadora de ganancia de información
Esta calculadora en línea calcula la ganancia de información, el cambio en la entropía de la información de un estado anterior a un estado que toma alguna información como dada
Este contenido está bajo licencia de Creative Commons Attribution/Share-Alike License 3.0 (Unported). Esto significa que puedes redistribuirlo o modificar su contenido en forma libre bajo las mismas condiciones de licencia y debes mantener la atribución del mismo al autor original de este trabajo colocando un hipervínculo en tu sitio web a este trabajo https://es.planetcalc.com/8421/. Así mismo, por favor no modifiques o alteres ninguna de las referencias al trabajo original (si hubiera alguna) que se encuentre en este contenido.
La calculadora en línea que figura a continuación analiza el conjunto de ejemplos de entrenamiento y luego calcula la información obtenida para cada atributo o característica. Si no está seguro de qué se trata, o quiere ver las fórmulas, lea la explicación debajo de la calculadora.
Nota: Los ejemplos de entrenamiento deben ser ingresados como una lista csv, con un punto y coma como separador. La primera fila se considera una fila de etiquetas, primero las etiquetas de atributos/características, luego la etiqueta de clase. Todas las demás filas son ejemplos. Los datos predeterminados de esta calculadora son el famoso ejemplo de los datos del árbol de decisión de "Jugar al tenis".
Árboles de decisión y ganancia de información
La ganancia de información es una métrica que es particularmente útil para construir árboles de decisión. Un árbol de decisión es una estructura similar a un diagrama de flujo en la que cada nodo interno representa una "prueba" de un atributo (por ejemplo, si al tirar una moneda sale cara o cruz), cada rama representa el resultado de la prueba y cada nodo de hoja representa una etiqueta de clase (la decisión tomada después de calcular todos los atributos). Los caminos de la raíz a la hoja representan las reglas de clasificación.1
Veamos los datos predeterminados de la calculadora.
Los atributos a ser analizados son:
- Pronóstico: Soleado, nublado y lluvioso
- Humedad: Alta/Normal
- Viento: Verdadero/Falso
- Temperatura: Cálido/templado/frío
La etiqueta de la clase es:
- Jugar: Sí/No
Así que, analizando los atributos uno por uno, el algoritmo debería responder efectivamente a la pregunta: "¿Deberíamos jugar al tenis?" Así, para realizar el menor número de pasos posibles, necesitamos elegir el mejor atributo de decisión en cada paso, el que nos dé la máxima información.
¿Cómo medimos la información que cada atributo puede darnos? Una de las formas es medir la reducción de la entropía, y esto es exactamente lo que hace la métrica de Ganancia de Información.
Volvamos al ejemplo. En nuestro conjunto de entrenamiento tenemos cinco ejemplos etiquetados como "No" y nueve ejemplos etiquetados como "Sí". Según la conocida fórmula de la entropía de Shannon, la entropía actual es
Ahora, imaginemos que queremos clasificar un ejemplo. Decidimos probar primero el atributo "Viento". Técnicamente, estamos realizando un desglose en el atributo "Viento".
Si el valor del atributo "Viento" es "Verdadero", nos quedan seis ejemplos. Tres de ellos tienen "Sí" como etiqueta de juego, y tres de ellos tienen "No" como etiqueta de juego.
Su entropía es
Por lo tanto, si nuestro ejemplo a prueba tiene "Verdadero" como el atributo "Viento", nos quedamos con más incertidumbre que antes.
Ahora, si el valor del atributo "Viento" es "Falso", nos quedamos con ocho ejemplos. Seis de ellos tienen "Sí" como la etiqueta de Juego, y dos de ellos tienen "No" como la etiqueta de Juego.
Su entropía es
Esto es, por supuesto, mejor que nuestros 0,94 bits de entropía iniciales (si tenemos la suerte de obtener "Falso" en nuestro ejemplo bajo prueba).
Para estimar la reducción de la entropía en general, necesitamos promediar usando la probabilidad de obtener valores de atributos "Verdadero" y "Falso". Tenemos seis ejemplos con un valor "Verdadero" del atributo "Viento" y ocho ejemplos con un valor "Falso" del atributo "Viento". Así, la entropía media después del desglose sería
Por lo tanto, nuestra entropía inicial es 0,94, y la entropía media después del desglose del atributo "Viento" es 0,892. Por lo tanto, la ganancia de información como reducción de la entropía es
La fórmula general para la ganancia de información del atributo a es
,
donde
- un conjunto de ejemplos de entrenamiento, cada uno de la forma donde es el valor del atributo o característica de ejemplo y es la etiqueta de clase correspondiente,
- la entropía de T condicionada sobre a (Entropía condicional)
La fórmula de entropía condicional es
donde
- el conjunto de ejemplos de entrenamiento de T para los cuales el atributo a es igual a v
Usando este enfoque, podemos encontrar la ganancia de información para cada uno de los atributos, y descubrir que el atributo "Pronóstico" nos da la mayor ganancia de información, 0,247 bits. Ahora podemos concluir que el primer desglose del atributo "Viento" fue una muy mala idea, y los ejemplos de entrenamiento dados sugieren que debemos probar primero el atributo "Pronóstico".
En una nota final, podría preguntarse por qué necesitamos un árbol de decisión si podemos proporcionar la decisión para cada combinación de atributos. Por supuesto que puede, pero incluso para este pequeño ejemplo, el número total de combinaciones es 3*2*2*3=36. Por otro lado, acabamos de usar un subconjunto de combinaciones (14 ejemplos) para entrenar nuestro algoritmo (construyendo un árbol de decisión) y ahora puede clasificar todas las demás combinaciones sin nuestra ayuda. Ese es el punto del aprendizaje de la máquina.
Comentarios