Un algoritmo simple y eficiente para la clasificación automática de páginas web

María del Cisne Garcia, Fausto Pasmay, Enrique V. Carrera

Resumen

Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la fre­cuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.


DOI: http://dx.doi.org/10.18272/aci.v1i1.11

Palabras clave

Minería de datos; clasificacion; frecuencia de terminos; embolsamiento; World Wide Web

Texto completo:

PDF

Referencias

Han, J. and Kamber, M. 2006. Data Mining - Con­cepts and Techniques, Morgan Kaufmann Publishers, San Francisco, CA, 2nd edition.

Pant, G. and Menczer, F. 2003. Topical crawling for bu­siness intelligence. In ECDL pp. 233-244.

Yahoo! 2008. Yahoo Directory. http://dir.yahoo.com.

Ambrosini, L., Cirillo, V., and Micarelli, A. 1997. A hy­brid architecture for user-adapted information filtering on the World Wide Web. In Proceedings of the 6th Inter­national Conference on User Modeling pp. 59-61.

Paez, S., Pasmay, F., and Carrera, E. V. 2008. Improving personalized web search. Technical Report (work in pro­gress). Department of Systems Engineering, University San Francisco of Quito.

Joachims, T., Freitag, D., and Mitchell, T. M. 1997. Web Watcher: A tour guide for the World Wide Web. In IJCAI (1)pp. 770-777.

Qi, X. and Davison, B. D. 2007. Web page classification: Features and algorithms. Technical Report LU-CSE-07- 010. Department of Computer Science and Engineering, Lehigh University.

Gupta, M. M., Jin, L., and Homma, N. 2003. Static and Dynamic Neural Networks, Wiley-Interscience, Hobo­ken, NJ, 1st edition.

Zhang, H. 2004. The optimality of Naive Bayes. In Va­lerie Barr and Zdravko Markov, (ed.), FLAIRS Confe­rence, AAAI Press.

Breiman, L. 1996. Bagging predictors. Machine Lear­ning. 2(24), 123-140.

Singhal, A., Salton, G., Mitra, M., and Buckley, C. 1996. Document length normalization. Information Processing and Management. 5(32), 619—633.

Shen, D., Chen, Z., Yang, Q., Zeng, H.-J., Zhang, B., Lu, Y., and Ma, W.-Y. 2004. Web-page classification through summarization. In Proceedings of the 27th Annual International Conference on Research and Development in Information RetrievalNew York, NY, USA: ACM Press. pp. 242-249.

Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2009 Universidad San Francisco de Quito

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.