Resumen
Este artículo propone un simple pero eficiente clasificador de paginas Web basado en la frecuencia de termi- nos. La simplicidad esta dada por el uso de un conjunto pequeüo de terminos para describir cada clase, mientras que la eficiencia es alcanzada mediante embolsamiento. El uso de atributos simples como la frecuencia de terminos tambien reduce la complejidad de los algoritmos de preprocesamiento y extracción de características. Sin embargo, un problema de usar propiedades dependientes de los terminos incluidos en cada paígina es la seleccioí n de la descripcioí n de teírminos correspondiente para cada una de las clases. En este trabajo, la seleccion de terminos para cada clase se basa en el coeficiente TFIDF, mientras que el enbol- samiento utiliza clasificadores probados como redes neuronales y algoritmos bayesianos. Los resultados de nuestra evaluacion muestran un clasificador sumamente rápido con una exactitud superior al 83 %.
Referencias
Han, J. and Kamber, M. 2006. Data Mining - ConÂcepts and Techniques, Morgan Kaufmann Publishers, San Francisco, CA, 2nd edition.
Pant, G. and Menczer, F. 2003. Topical crawling for buÂsiness intelligence. In ECDL pp. 233-244.
Yahoo! 2008. Yahoo Directory. http://dir.yahoo.com.
Ambrosini, L., Cirillo, V., and Micarelli, A. 1997. A hyÂbrid architecture for user-adapted information filtering on the World Wide Web. In Proceedings of the 6th InterÂnational Conference on User Modeling pp. 59-61.
Paez, S., Pasmay, F., and Carrera, E. V. 2008. Improving personalized web search. Technical Report (work in proÂgress). Department of Systems Engineering, University San Francisco of Quito.
Joachims, T., Freitag, D., and Mitchell, T. M. 1997. Web Watcher: A tour guide for the World Wide Web. In IJCAI (1)pp. 770-777.
Qi, X. and Davison, B. D. 2007. Web page classification: Features and algorithms. Technical Report LU-CSE-07- 010. Department of Computer Science and Engineering, Lehigh University.
Gupta, M. M., Jin, L., and Homma, N. 2003. Static and Dynamic Neural Networks, Wiley-Interscience, HoboÂken, NJ, 1st edition.
Zhang, H. 2004. The optimality of Naive Bayes. In VaÂlerie Barr and Zdravko Markov, (ed.), FLAIRS ConfeÂrence, AAAI Press.
Breiman, L. 1996. Bagging predictors. Machine LearÂning. 2(24), 123-140.
Singhal, A., Salton, G., Mitra, M., and Buckley, C. 1996. Document length normalization. Information Processing and Management. 5(32), 619"”633.
Shen, D., Chen, Z., Yang, Q., Zeng, H.-J., Zhang, B., Lu, Y., and Ma, W.-Y. 2004. Web-page classification through summarization. In Proceedings of the 27th Annual International Conference on Research and Development in Information RetrievalNew York, NY, USA: ACM Press. pp. 242-249.

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Derechos de autor 2009 María del Cisne Garcia, Fausto Pasmay, Enrique V. Carrera
