« Back to publications

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificaci�n de P�ginas Web

Arkaitz Zubiaga

MSc Dissertation. 2008.

Download PDF file
En este trabajo se presenta un estudio realizado sobre clasificaci�n autom�tica de p�ginas web, para lo que se han estudiado diferentes t�cnicas de aprendizaje autom�tico, desde m�todos supervisados hasta semisupervisados. Se ha considerado una tarea t�pica de clasificaci�n de p�ginas web como un problema multiclase, donde el n�mero de clases es mayor que dos, y como un problema de aprendizaje semisupervisado, ya que el porcentaje de documentos previamente etiquetados acostumbra a ser reducido en este entorno. Se escogieron las m�quinas de vectores de soporte (Support Vector Machines, SVM), las cuales han demostrado en los �ltimos a�os una gran efectividad para clasificaci�n autom�tica de textos. No obstante, la naturaleza dicot�mica y supervisada de esta t�cnica plante� la necesidad de trasladarla a este entorno semisupervisado, integrando la capacidad de entrenar con documentos no etiquetados, y teniendo en cuenta que la taxonom�a definida es, a priori, mayor que la que presentan los problemas binarios. As�, este trabajo propone y compara diferentes aproximaciones, combinando tanto clasificadores semisupervisados binarios como supervisados multiclase, para resolver el problema planteado, mostrando los resultados obtenidos tras las experimentaciones realizadas sobre tres colecciones de p�ginas web de referencia. Las experimentaciones muestran que las combinaciones de clasificadores supervisados multiclase obtienen unos resultados notablemente superiores a las de semisupervisados binarios.