Implementación de una red neuronal de convolución para el reconocimiento de poses en imágenes de rostros
Contenido principal del artículo
Resumen
Las redes neuronales de convolution pertenecen a un conjunto de técnicas agrupadas bajo el aprendizaje profundo, una rama del aprendizaje automático que ha probado ser exitosa en los últimos años en tareas de reconocimiento de imágenes y grabaciones de voz. El presente trabajo explora la utilización de las redes neuronales de convolución en el reconocimiento de imágenes de poses horizontales fuera del plano de rostros. Se propone una implementación basada en las bilbiotecas de código abierto OpenCV para la clasificación de imágenes de rostros humanos dentro de 7 poses predeterminadas y se presenta en detalle la arquitectura de la red y la estrategia de aprendizaje.
La implementación entrenada con conjuntos de 2600 imágenes de cuatro tamaños: 33 × 33, 41 × 41, 65 × 65 y 81 × 81, alcanza una tasa de aciertos promedio del 85% superior a la obtenida con el algoritmo de Rostros Propios cercana al 78%, con un tiempo de ejecución similar.
Descargas
Metrics
Detalles del artículo
Los autores que publiquen en la revista ACI Avances en Ciencias e Ingenierías aceptan los siguientes términos:
- Los autores conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, la cual estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista.
- Los autores podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada, pudiendo de esa forma publicarla en un volumen monográfico o reproducirla de otras formas, siempre que se indique la publicación inicial en esta revista.
- Se permite y se recomienda a los autores difundir su obra a través de Internet:
- Antes del envío a la revista, los autores pueden depositar el manuscrito en archivos/repositorios de pre-publicaciones (preprint servers/repositories), incluyendo arXiv, bioRxiv, figshare, PeerJ Preprints, SSRN, entre otros, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada (Véase El efecto del acceso abierto).
- Después del envío, se recomiendo que los autores depositen su artículo en su repositorio institucional, página web personal, o red social científica (como Zenodo, ResearchGate o Academia.edu).
Citas
[2] Zhang, X.; Gao, Y. 2009. “Face recognition across pose: A review”. Pattern Recognition, 42 (11): 2876-2896.
[3] Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P; Sainath, T.; Kingsbury, B. 2012. “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups”. IEEE Signal Process. Mag, 29 (6): 82-97.
[4] Hinton, G.; Srivastava, N. 2012. “Improving neural networks by preventing co-adaptation of feature detectors”. arXiv preprint: 1-18.
[5] Srivastava, N. 2013. “Improving neural networks with dropout”. PhD thesis University of Toronto.
[6] Goodfellow, I.; Warde-Farley, D.; Mirza, M.; Courville, A.; Bengio, Y. 2013. “Maxout networks”. ICML.
[7] Phillips, P; Wechsler, H.; Huang, J.; Rauss, P 1998. “The FERET database and evaluation procedure for face-recognition algorithms”. Image and Vision Computing, 16 (5): 295-306.
[8] Pesquisa, P; Leonel, L.; Junior, D. 2005. “Relatório Final Captura e Alinhamento de Imagens: Um Banco de Faces Brasileiro”. 1-10.
[9] Viola, P; Jones, M. 2001. “Rapid object detection using a boosted cascade of simple features”. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR, 1: I-511-I-518.
[10] Moon, H.; Phillips, P 2001. “Computational and performance aspects of PCA-based face-recognition algorithms”. Perception-London.
[11] Le, Q.; Ngiam, J.; Chen, Z. 2010. “Tiled convolutional neural networks”. Advances in Neural: 1-9.
[12] Vatahska, T.; Bennewitz, M.; Behnke, S. 2007. “Feature-based head pose estimation from images”. 7th IEEE-RAS International Conference on Humanoid Robots: 330-335.
[13] Bouvrie, J. 2006. “Notes on convolutional neural networks”. http://cogprints.org/5869/.
[14] LeCun, Y.; Bottou, L.; Orr, G.; Müller, K. 1998. “Efficient backprop”. Neural networks.
[15] O’Neill, M. 2006. “Neural Network for Recognition of Handwritten Digits”. http://www.codeproject.com/Articles/16650/Neural-Network-for-Recognition-of-Handwritten-Digi.
[16] Bradski, G.; Kaehler, A. 2008. “Learning OpenCV: Computer Vision in C++ with the OpenCV Library”. O’Reilly Media, 1st ed. edition.
[17] Pang, S.; Kasabov, N. 2006. “Investigating LLE eigenface on pose and face identification”. In Advances in Neural Networks - ISNN 2006, Third International Symposium on Neural Networks, Chengdu, China: 134-139.
[18] Zhao, W.; Chellappa, R.; Phillips, P.; Rosenfeld, A. 2003. “Face recognition”. ACM Computing Surveys, 35 (4): 399-458.
[19] García, C.; Delakis, M. 2004. “Convolutional face finder: A neural architecture for fast and robust face detection”. IEEE Trans. Pattern Anal. Mach. Intell, 26 (11): 1408-1423.