Navegación autónoma y evasión de obstáculos en UAV usando aprendizaje por refuerzo

Bravo Navarro, María Carolina; Ruiz Barreto, Diego Felipe

Navegación autónoma y evasión de obstáculos en UAV usando aprendizaje por refuerzo

dc.contributor.advisor	Calderón Chávez, Juan Manuel	spa
dc.contributor.advisor	Higuera Arias, Carolina	spa
dc.contributor.author	Bravo Navarro, María Carolina	spa
dc.contributor.author	Ruiz Barreto, Diego Felipe	spa
dc.contributor.cvlac	http://scienti.colciencias.gov.co:8081/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001469151	spa
dc.contributor.cvlac	http://scienti.colciencias.gov.co:8081/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000380938	spa
dc.contributor.googlescholar	https://scholar.google.es/citations?user=ZaxycbsAAAAJ&hl=es	spa
dc.contributor.orcid	https://orcid.org/0000-0001-5141-0817	spa
dc.coverage.campus	CRAI-USTA Bogotá	spa
dc.date.accessioned	2019-10-03T22:24:09Z	spa
dc.date.available	2019-10-03T22:24:09Z	spa
dc.date.issued	2019-10-03	spa
dc.description	La navegación autónoma en entornos no estructurados es una de las tareas más desafiantes para los vehículos aéreos no tripulados (UAV). Para enfrentar esta clase de retos es necesario el uso de algoritmos complejos de control y de aprendizaje que colaboren en procesos de adaptación del vehículo no tripulado a los continuos cambios del ambiente en el que navega. Uno de los campos de la inteligencia artificial más prometedores en tareas de aprendizaje no supervisado es el aprendizaje por refuerzo. Este trabajo propone el uso de Q-Learning en tiempo real, para generar el sistema de aprendizaje de navegación de un UAV. Dado que el proceso de aprendizaje toma bastante tiempo y los UAVs tienen una autonomía de vuelo bastante limitada por la capacidad de la batería. Para esto se propone el uso de un ambiente de simulación que permita la evolución del sistema de aprendizaje independientemente de las limitaciones de autonomía de un robot real, en donde el robot aprenderá a navegar autónomamente y evadir obstáculos. Se presenta una propuesta usando aprendizaje por refuerzo más específicamente la técnica de Q-Learning para resolver el problema de la navegación autónoma en un UAV, en la solución propuesta se establecen los estados del agente teniendo en cuenta varios factores, como es la lectura de los sensores en la detección de obstáculos, la distancia que hay entre el agente y el objetivo, y la dirección hacia donde se encuentra el GOAL. Para esta solución son establecidas 8 acciones que son los movimientos que el UAV puede realizar, una política de premios y castigos para evaluar el aprendizaje del agente, Se implementa la técnica propuesta en el software matemático MATLAB y el entorno de simulación virtual V-REP, para acercarse lo más posible a un escenario real como lo es el rescate de personas en desastres naturales, en la entrega de paquetes, en la agricultura de precisión, entre otras aplicaciones.	spa
dc.description.degreelevel	Pregrado	spa
dc.description.degreename	Ingeniero Electronico	spa
dc.description.domain	http://unidadinvestigacion.usta.edu.co	spa
dc.format.mimetype	application/pdf	spa
dc.identifier.citation	Bravo, M., & Ruiz, D. (2019). Navegación autónoma y evasión de obstáculos en UAV usando aprendizaje por refuerzo . Bogotá: Universidad Santo Tomas, Bogotá.	spa
dc.identifier.instname	instname:Universidad Santo Tomás	spa
dc.identifier.reponame	reponame:Repositorio Institucional Universidad Santo Tomás	spa
dc.identifier.repourl	repourl:https://repository.usta.edu.co	spa
dc.identifier.uri	http://hdl.handle.net/11634/19029
dc.language.iso	spa	spa
dc.publisher	Universidad Santo Tomás	spa
dc.publisher.faculty	Facultad de Ingeniería Electrónica	spa
dc.publisher.program	Pregrado Ingeniería Electrónica	spa
dc.relation.references	[1] C. Fu, A. Carrio, M.A. Olivares-Mendez, R. Suarez-Fernandez y P. Campoy, “Robust real-time vision-based aircraft tracking from Unmanned Aerial Vehicles”. IEEE International Conference on Robotics and Automation (ICRA), 24 September 2014.	spa
dc.relation.references	[2] C.Wang, J. Wang, X. Zhang and X. Zhang, “Autonomous Navigation of UAV in large-Scale unknown complex environment with deep reinforcement learning”, Tsinghua University, China.	spa
dc.relation.references	[3] H.X. Pham, Hung. M. La, D. Feil-Seifer, L.V. Nguyen, “Autonomous UAV Navigation Using Reinforcement Learning”, 2018.	spa
dc.relation.references	[4] Baez, H., Perez, K., Rojas, E., Rodríguez, S., Lopez, J., Quintero, C., & Calderón, J. M. (2013, November). Application of an educational strategy based on a soccer robotic platform. In 2013 16th International Conference on Advanced Robotics (ICAR) (pp. 1-6). IEEE	spa
dc.relation.references	[5] Calderon, J. M., Rojas, E. R., Rodriguez, S., Baez, H. R., & Lopez, J. A. (2012, July). A Robot soccer team as a strategy to develop educational iniciatives. In Latin American and Caribbean Conference for Engineering and Technology, Panama City, Panama.	spa
dc.relation.references	[6] Rodrıguez, S., Rojas, E., Pérez, K., Quintero, C., Pena, O., Reyes, A., & Calderón, J. (2013). STOx’s 2013 Team Description Paper.	spa
dc.relation.references	[7] Rodrıguez, S., Rojas, E., Pérez, K., López, J., Quintero, C., Calderón, J. M., & Pena, O. (2014). STOx’s 2015 Extended Team Description Paper. Joao Pessoa, Brazil.	spa
dc.relation.references	[8] Rodríguez, S., Rojas, E., Pérez, K., López, J., Quintero, C., & Calderón, J. (2014, July). Fast path planning algorithm for the robocup small size league. In Robot Soccer World Cup (pp. 407-418). Springer, Cham.	spa
dc.relation.references	[9] Quintero, C., Rodríguez, S., Pérez, K., López, J., Rojas, E., & Calderón, J. (2014, July). Learning soccer drills for the small size league of robocup. In Robot Soccer World Cup (pp. 395-406). Springer, Cham.	spa
dc.relation.references	[10] Cardona, G. A., Moreno, W., Weitzenfeld, A., & Calderon, J. M. (2016, March). Reduction of impact force in falling robots using variable stiffness. In SoutheastCon 2016 (pp. 1-6). IEEE.	spa
dc.relation.references	[11] Elibol, E., Calderon, J., Llofriu, M., Quintero, C., Moreno, W., & Weitzenfeld, A. (2015, July). Power usage reduction of humanoid standing process using q-learning. In Robot Soccer World Cup (pp. 251-263). Springer, Cham.	spa
dc.relation.references	[12] Elibol, E., Calderon, J., & Weitzenfeld, A. (2013, June). Optimizing energy usage through variable joint stiffness control during humanoid robot walking. In Robot Soccer World Cup (pp. 492-503). Springer, Berlin, Heidelberg.	spa
dc.relation.references	[13] Calderon, J. M., Elibol, E., Moreno, W., & Weitzenfeld, A. (2013). Current usage reduction through stiffness control in humanoid robot. In 8th Workshop on Humanoid Soccer Robots, IEEE-RAS International Conference on Humanoid Robots.	spa
dc.relation.references	[14] G. Sánchez, M. Mulero, E. Saumeth, “Vehículos Aéreos no tripulados, Drones”, Mayo 2013. Available: https://www.infodefensa.com/wp-content/uploads/Vehiculos_aereos_no_tripulados_en_Latam.pdf	spa
dc.relation.references	[15] C.Juan, “¿Cómo aprovechar los drones en la industria logística?”, Escuela de negocios de la innovación y los emprendedores, España, 2016. Available: https://www.iebschool.com/blog/drones-en-la-industria-logistica/	spa
dc.relation.references	[16] J. Lluís Micó, “Drones (para) reporteros”, La vanguardia, España, 2018. Available: https://www.lavanguardia.com/tecnologia/20180225/441003672054/dron-periodismo-reporteros-crisis-universidad.html	spa
dc.relation.references	[17] P. Fruticola, “Aplicación de productos químicos con drones en la agricultura”, agritotal.com, Argentina, 2017. Available: https://www.agritotal.com/nota/32047-aplicacion-de-productos-quimicos-con-drones-en-la-agricultura/	spa
dc.relation.references	[18] R. S. Sutton and A. G. Barto, Reinforcement learning: An Introduction. Cambridge, MA: MIT press, 1998.	spa
dc.relation.references	[19] J. Kober, J. A. Bagnell, and J. Peters, “Reinforcement learning in robotics: A Survey,” International Journal of Robotics Research, vol. 32, no. 11, pp. 1238–1274, 2013	spa
dc.relation.references	[20] N. Imanberdiyev, C. Fu, E. Kayacan and M. Chen, “Autonomous Navigation of UAV by Using Real-Time Model-Based Reinforcement Learning”, School of Mechanical and Aerospace Engineering 2ST Engineering, 2016.	spa
dc.relation.references	[21] T. Sugimoto and M. Gouko, “Acquisition of hovering by actual UAV using reinforcement learning”, Tohoku Gakuin University, Japan, 2016.	spa
dc.relation.references	[22] J.Q. Cui, S. Lai, X. Dong, P. Liu, B.M. Chen, T.H. Lee, “Autonomous Navigation of UAV in forest”, IEEE International Conference on Unmanned Aircraft Systems (ICUAS) 26 June 2014.	spa
dc.relation.references	[23] S. R. B. dos Santos, C. L. Nascimento, and S. N. Givigi, “Design of attitude and path tracking controllers for quad-rotor robots using reinforcement learning,” in Aerospace Conference, 2012.	spa
dc.relation.references	[24] Y. Zeng, G. Wang and B. Xu, “A Basal Ganglia Network Centric Reinforcement Learning Model and Its Application in Unmanned Aerial Vehicle”. IEEE Transactions on cognitive and developmental systems, June 2016.	spa
dc.relation.references	[25] Z. Ma, C. Wang, Y. Niu, Z, Wang and L. Shen, “A saliency-based reinforcement learning approach for a UAV to avoid flying obstacles” Robotics and Autonomous Systems, Volume 100, February 2018, Pages 108-118.	spa
dc.relation.references	[26] B. Zhang, W. Liub, Z. Maoa, J. Liud, L. Shenc, “Cooperative and Geometric Learning Algorithm (CGLA) for path planning of UAVs with limited information”, Automatica Volume 50, Issue 3, March 2014, Pages 809-820	spa
dc.relation.references	[27] C.A. Ibagué Ramos, J.S. Parra Torres, Comparación de estrategias de navegación utilizando teoría de multiagentes para el barrido de zonas posiblemente minadas, Universidad Santo Tomás, 2017.	spa
dc.relation.references	[28] W. Quesada, “Generación de comportamientos de enjambre en robots móviles a través del uso del aprendizaje por refuerzo”, Universidad Santo Tomás, 2019.	spa
dc.relation.references	[29] J. Kober, J. A. Bagnell and J. Peters, "Reinforcement learning in robotics: A survey," The International Journal of Robotics Research, vol. 32, (11), pp. 1238- 1274, 2013. Available: https://doi.org/10.1177/0278364913495721. DOI: 10.1177/0278364913495721.	spa
dc.relation.references	[30] P. Bristeau et al, "The Navigation and Control technology inside the AR. Drone micro UAV," IFAC Proceedings Volumes, vol. 44, (1), pp. 1477-1484, 2011. Available: https://www.sciencedirect.com/science/article/pii/S1474667016438188.	spa
dc.relation.references	[31] DOI: 10.3182/20110828-6-IT-1002.02327	spa
dc.relation.references	[32] Quesada, W. O., Rodriguez, J. I., Murillo, J. C., Cardona, G. A., Yanguas-Rojas, D., Jaimes, L. G., & Calderón, J. M. (2018, June). Leader-Follower Formation for UAV Robot Swarm Based on Fuzzy Logic Theory. In International Conference on Artificial Intelligence and Soft Computing (pp. 740-751). Springer, Cham.	spa
dc.relation.references	[33] León, J., Cardona, G. A., Jaimes, L. G., Calderón, J. M., & Rodriguez, P. O. (2018, June). Rendezvous Consensus Algorithm Applied to the Location of Possible Victims in Disaster Zones. In International Conference on Artificial Intelligence and Soft Computing (pp. 700-710). Springer, Cham	spa
dc.relation.references	[34] Cardona, G.A.; Calderon, J.M. Robot Swarm Navigation and Victim Detection Using Rendezvous Consensus in Search and Rescue Operations. Appl. Sci. 2019, 9, 1702.	spa
dc.relation.references	[35] Yanguas-Rojas, David, et al. Victims search, identification, and evacuation with heterogeneous robot networks for search and rescue. En 2017 IEEE 3rd Colombian Conference on Automatic Control (CCAC). IEEE, 2017. p. 1-6.	spa
dc.relation.references	[36] Cardona, G.A., Yanguas-Rojas, D., Arevalo-Castiblanco, M.F. & Mojica-Nava, E. 2019, "Ant-based multi-robot exploration in non-convex space without global-connectivity constraints", 2019 18th European Control Conference, ECC 2019, pp. 2065.	spa
dc.relation.references	[37] León, J., Cardona, G. A., Botello, A., & Calderón, J. M. (2016, December). Robot swarms theory applicable to seek and rescue operation. In International Conference on Intelligent Systems Design and Applications (pp. 1061-1070). Springer, Cham.	spa
dc.relation.references	[38] Di Wu, Member, IEEE, Dmitri I. Arkhipov, Minyoung Kim, Carolyn L. Talcott, Amelia C. Regan, Member, IEEE, Julie A. McCann, Member, IEEE and Nalini Venkatasubramanian, Senior Member, IEEE, “ADDSEN: Adaptive Data Processing and Dissemination for Drone Swarms in Urban Sensing”, 2017.	spa
dc.relation.references	[39] Transductor, (4 Julio, 2017), Interacción entre V-REP y Matlab. [Online], Available: https://robologs.net/2017/07/04/interaccion-entre-v-rep-y-matlab/	spa
dc.relation.references	[40] Adaptive Computation and Machine Learning, Thomas Dietterich, series editor, Christopher Bishop, David Heckerman, Michael Jordan, and Michael Kearns, associate editors.	spa
dc.relation.references	[41] Pitonakova, L, Giuliani, M., Pipe, A, Winfield, A. (2018) Feature and performance comparison of the V-REP, Gazebo and ARGoS robot simulators. Proceedings of the 19th Towards Autonomous Robotic Systems Conference (TAROS 2018), Lecture Notes in Computer Science, vol 10965, Springer, 357-368. http://lenkaspace.net/tutorials/programming/robotSimulatorsComparison	spa
dc.relation.references	[42] R. Kurozumi, S. Fujisawa, T. Yamamoto and Y. Suita.” Path planning for mobile robots using an improved reinforcement learning scheme,”Proceedings of the 41st SICE Annual Conference. SICE 2002., 2002, pp.2178-2183 vol.4.	spa
dc.relation.references	[43] Cardona, G. A., Bravo, C., Quesada, W., Ruiz, D., Obeng, M., Wu, X., and Calderon, J. M. "Autonomous Navigation for Exploration of Unknown Environments and Collision Avoidance in Mobile Robots Using Reinforcement Learning.” In SoutheastCon 2019, pp. 1-6. IEEE, 2019.	spa
dc.rights	Atribución-NoComercial-SinDerivadas 2.5 Colombia	*
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.local	Abierto (Texto Completo)	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/co/	*
dc.subject.keyword	Algorithm	spa
dc.subject.keyword	Reinforcement Learning	spa
dc.subject.keyword	Q-learning	spa
dc.subject.keyword	Reward	spa
dc.subject.keyword	Simulation	spa
dc.subject.keyword	UAVs	spa
dc.subject.lemb	Aprendizaje por refuerzo	spa
dc.subject.lemb	Recompensa -- Psicologia	spa
dc.subject.lemb	Simulacion por computadores	spa
dc.subject.proposal	Algoritmo	spa
dc.subject.proposal	Aprendizaje por refuerzo	spa
dc.subject.proposal	Q-learning	spa
dc.subject.proposal	Recompensa	spa
dc.subject.proposal	Simulacion	spa
dc.subject.proposal	UAVs	spa
dc.title	Navegación autónoma y evasión de obstáculos en UAV usando aprendizaje por refuerzo	spa
dc.type	bachelor thesis
dc.type.category	Formación de Recurso Humano para la Ctel: Trabajo de grado de Pregrado	spa
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.drive	info:eu-repo/semantics/bachelorThesis
dc.type.local	Tesis de pregrado	spa
dc.type.version	info:eu-repo/semantics/acceptedVersion