Constructor del árbol de decisión

Esta calculadora en línea construye un árbol de decisión a partir de un conjunto de entrenamiento usando la métrica de Ganancia de Información

La calculadora en línea que se muestra a continuación analiza el conjunto de ejemplos de entrenamiento y luego construye un árbol de decisión, utilizando la Ganancia de Información como criterio de una división. Si no está seguro de qué se trata, lea el breve texto explicativo sobre árboles de decisión que se encuentra debajo de la calculadora.

Nota: Los ejemplos de entrenamiento deben introducirse como una lista csv, con un punto y coma como separador. La primera fila se considera una fila de etiquetas, empezando por las etiquetas de atributos/características, y luego la etiqueta de clase. Todas las demás filas son ejemplos. Los datos predeterminados de esta calculadora son el famoso ejemplo de los datos del árbol de decisión de "Jugar al Tenis".

PLANETCALC, Constructor del Árbol de Decisión

Constructor del Árbol de Decisión

Árbol de Decisión
 

Árboles de Decisión

Un árbol de decisión es una estructura similar a un diagrama de flujo en la que cada nodo interno representa una "prueba" de un atributo (por ejemplo, si al tirar una moneda sale cara o cruz), cada rama representa el resultado de la prueba y cada nodo de hoja representa una etiqueta de clase (decisión tomada después de computar todos los atributos). Los caminos de la raíz a la hoja representan las reglas de clasificación.1

Veamos los datos predeterminados de la calculadora.

Los atributos a ser analizados son:

  • Pronóstico: Soleado, nublado y lluvioso
  • Humedad: Alta/Normal
  • Viento: Verdadero/Falso
  • Temperatura: Cálido/templado/frío

La etiqueta de la clase es:

  • Jugar: Sí/No

Así que, analizando los atributos uno por uno, el algoritmo debería responder efectivamente a la pregunta: "¿Deberíamos jugar al tenis?" Así, para realizar el menor número de pasos posibles, necesitamos elegir el mejor atributo de decisión en cada paso, el que nos dé la máxima información. Este atributo se utiliza como la primera división. Luego el proceso continúa hasta que no tengamos más necesidad de dividir (después de la división todas las muestras restantes son homogéneas, es decir, podemos identificar la etiqueta de la clase), o no haya más atributos para dividir.

El árbol de decisión generado se divide primero en "Pronóstico". Si la respuesta es "Soleado", entonces se comprueba el atributo "Humedad". Si la respuesta es "Alta", entonces es "No" para "Jugar". Si la respuesta es "Normal", entonces es "Sí" para "Jugar". Si el "Pronóstico" es "Nublado", entonces es "Sí" para "Jugar" inmediatamente. Si el "Pronóstico" es "Lluvioso", entonces se necesita comprobar el atributo "Ventoso". ¡Este árbol de decisión no necesita comprobar la característica "Temperatura" en absoluto!

Puede utilizar diferentes métricas como criterio de división, por ejemplo, Entropía (a través de Ganancia de Información o Relación de Ganancia), Índice de Gini, Error de Clasificación. Esta calculadora en particular utiliza Ganancia de Información.

Se preguntará por qué necesitamos un árbol de decisión si podemos proporcionar la decisión para cada combinación de atributos. Por supuesto que puede, pero incluso para este pequeño ejemplo, el número total de combinaciones es 3*2*2*3=36. Por otro lado, acabamos de usar un subconjunto de combinaciones (14 ejemplos) para entrenar nuestro algoritmo (construyendo un árbol de decisión) y ahora puede clasificar todas las demás combinaciones sin nuestra ayuda. Ese es el punto del aprendizaje de la máquina. Por supuesto, hay muchas implicaciones con respecto a la falta de robustez, la sobrecarga, el sesgo, etc. Para más información, puede consultar el artículo Aprendizaje basado en árboles de decisión en Wikipedia.

URL copiada al portapapeles
PLANETCALC, Constructor del árbol de decisión

Comentarios