Please use this identifier to cite or link to this item: http://hdl.handle.net/11298/445
Title: Aplicación de herramientas big data al Viceministerio de Vivienda y Desarrollo Urbano del Ministerio de Obras Públicas de El Salvador
Authors: Universidad Tecnológica de El Salvador
Rosa, Verónica Idalia
Rivera, José Guillermo
Keywords: BASES DE DATOS
ADMINISTRACIÓN DE BASES DE DATOS
HADOOP - PROGRAMA PAR COMPUTADOR
SISTEMAS DE ALMACENAMIENTO Y RECUPERACIÓN DE INFORMACIÓN
Issue Date: 2018
Publisher: Universidad Tecnológica de El Salvador, Vicerrectoría de Investigación y Proyección Social
Citation: Rosa, V. I., & Rivera, J. G. (2018). Aplicación de herramientas big data al Viceministerio de Vivienda y Desarrollo Urbano del Ministerio de Obras Públicas de El Salvador. San Salvador: Universidad Tecnológica de El Salvador.
Series/Report no.: Colección Investigaciones ; v. 74
Abstract: Los macrodatos (big data) han sido muy usados en la informática y en las grandes empresas, ya que en estas se puede visualizar la gran cantidad de información que se maneja hoy en día. Es tanta la información que entra y sale que a la vez es un reto su manejo. Big data es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes en un único conjunto de datos. En el 2001 se realizó un informe de investigación en el que el analista Doug Laney del META Group [ahora Gartner] (Laney, 2016), definía “el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad”. Hoy en día, se continúa usando datos masivos y en mayor escala que hace 14 años, por lo tanto, para las empresas se hace necesario buscar herramientas que permitan dar soluciones a la demanda de grandes cantidades de datos para su procesamiento y análisis, tales son los casos de MapR, Cyttek Group, Cloudera y Hadoop, entre otros. “Big Data es desde hace unos años el término de moda dentro del mundo de la informática. Dicho de otra manera, durante 2012 y parte de 2013 el 60 % de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán ‘obsoletos’ en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.”1 Debido a todo lo anterior, estamos ante una realidad que no se puede cambiar y en la que se debe ir en la misma dirección con los avances de la ciencia y la tecnología, por lo tanto, existe la necesidad de trabajar con una gran cantidad de datos, pero un mayor porcentaje de empresas no saben cómo hacerlo. Esta investigación va a servir como referencia para dar a conocer el uso de herramientas de big data en El Salvador, específicamente a un sector del Gobierno. El Salvador, ubicado en Centroamérica, es un país muy pequeño en extensión territorial y población en comparación con otros países del mundo. En cuanto a la tecnología, se trata de ir a la vanguardia sobre todo en ámbitos como el de las telecomunicaciones. El concepto de big data es algo novedoso, pero con mucho impulso para incursionar con él como herramienta indispensable en las telecomunicaciones, pues las empresas se preguntan cómo procesar y almacenar grandes volúmenes de datos y para luego analizarlos. Es tanta la información que se genera a diario en la web mediante las redes sociales, los buscadores y el almacenamiento de datos en la nube, etc.; por lo que resulta abrumador. Solo el hecho de saber cómo se consigue captar y analizar dicha información es sorprendente. También se sabe que las redes sociales hoy en día aportan mucha información relevante que los usuarios comparten libre y públicamente en la web. Para los que están inmersos en este medio, no es desconocido que a muchas personas les encanta publicar los lugares en los que están en un momento dado; las marcas que prefieren, ya sea de ropa, zapatos, accesorios, perfumes, comidas, restaurantes, etc. Todo esto es aprovechado por las empresas para detectar tendencias en el mercado y para enfocar las acciones que se van a llevar a cabo, algo que ayuda a tomar mejores decisiones y a que los resultados sean mejores. Por supuesto, las ventajas las obtendrán aquellas empresas que sepan cómo procesar y analizar esos datos; y es allí donde muchas se quedan estancadas al seguir haciendo los procedimientos cotidianos, por la ignorancia del uso de herramientas que facilitarían el procesado masivo de datos en poco tiempo. Por otro lado, están los dataset públicos, que son archivos que se encuentran alojados en la nube de forma pública en distintos formatos; y es allí donde también surge el problema cuando los datos ya no son estructurados como comúnmente se ha acostumbrado a utilizarlos en las bases de datos relacionales tradicionales, pues estos se encuentran en formatos tales como JSON, CSV, DAT, ARFF, NCOL, etc. En estos casos se hace necesario el uso de herramientas que permitan almacenar y procesar ese tipo de ficheros. De allí que, en el Viceministerio de Vivienda y Desarrollo Urbano, del Ministerio de Obras Públicas (MOP), está enfrentando serios problemas para el almacenamiento de grandes cantidades de información relacionada con la vivienda en El Salvador, ya que los recursos actuales mediante bases de datos relacionales están sobrepasando los umbrales de almacenamiento por contener demasiada información; y porque la estructura SQL presenta grandes dificultades para administrarla. El MOP necesita encontrar una solución que le permita ser replicada en otros viceministerios con problemas similares, como el de Transporte. Debido a la problemática existente en el Ministerio, tuvimos a bien tomarla en cuenta para poder ayudarles, y, en ese sentido, tener una relación Universidad-Gobierno para poder hacer uso de herramientas propias de big data y así hacer una propuesta que logre solucionar los problemas del procesamiento masivo de la información, del análisis de los resultados y de la visualización de los datos (ver anexo 1). Para ello se trabajó con datasets proporcionados por el Viceministerio, los cuales estaban en formato CSV (Comma Separated Value) y contenían una gran cantidad de datos sobre postulantes a vivienda de los 14 departamentos del país y sus 262 municipios, además de incluir a los extranjeros que también solicitan vivienda. Uno de los dataset, con 326,358 registros y 11 campos, tales como Id_Persona, P_Nombre, P_Nombre2, P_Apellido, P_Apellido2, P_Apellido3, P_sexo, P_Fecha_nacimiento, P_Id_Estado_ civil, ID_Depto, ID_Municipio. El otro dataset, con igual cantidad de registros y con 8 campos: Id_Persona, P_Apellido, P_Nombre, P_sexo, P_edad, P_Estado_civil, P_Depto, P_Municipio. Este último con datos filtrados y sin basura, es decir, sin datos nulos o erróneos. Lo que se pretendía con esa información es que al hacer uso de herramientas big data, el procesamiento de los datos y su análisis respectivo para la toma de decisiones se hicieran en el menor tiempo posible para satisfacer la demanda de petición de vivienda de los habitantes postulantes.
URI: http://hdl.handle.net/11298/445
ISBN: 9789996148972
Appears in Collections:Libros

Files in This Item:
File Description SizeFormat 
Investigacion 74 ok rd.pdfInvestigación_7419.96 MBAdobe PDFView/Open



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.