Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación

Samuel Oporto Díaz (1), Iván Aquino Morales (1), Jacqueline Karina Chávez Cuzcano (1), César Oswaldo Pérez Pinche (1)

e-mails: soporto@wiphala.net, ivaqmo@computer.org, karinajcc@ieee.org, cesaruni@computer.org

(1) Universidad Nacional de Ingeniería

Resumen

El proceso de selección de características consiste en la búsqueda del subconjunto óptimo de atributos que permita disminuir el error de un algoritmo de aprendizaje. Estos algoritmos se pueden clasificar en dos tipos: los algoritmos de filtro y los algoritmos envolventes; los primeros escogen el subconjunto de características independiente del algoritmo de aprendizaje y los segundos usan el algoritmo de aprendizaje para escoger el mejor subconjunto de características. Este trabajo pretende comparar algoritmos de selección de características envolventes para clasificación, para ello usaremos 4 algoritmos: Búsqueda Aleatoria Optimizada(BAO), Mejor Primero, Búsqueda Genética y Búsqueda Aleatoria. Para medir la calidad del subconjunto usaremos el error del clasificador.

Se pretende usar 4 clasificadores: Red Neuronal de Retropropagación, Árbol de Decisión C4.5, Máquina de Vector de Soporte y el Clasificador Bayesiano Naive Bayes. Por otro lado en los experimentos, usaremos 3 bases de datos extraídas del Repositorio UCI. Luego de realizar los experimentos se demuestra que la Búsqueda Aleatoria Optimizada produce, en promedio, menor error de clasificación para estas 4 bases de datos. Se requiere realizar mayor cantidad de experimentos para extender la conclusión a todos los posibles casos.

Palabras Claves: Selección de características, búsqueda aleatoria del subconjunto de características, Minería de Datos, Clasificación.


PDF de este artículo
PDF de JPC2006 (incluye todos los artículos)