Manejo masivo de datos

Sesión

lunes 04 de enero, 2021

Big Data para Gestión de Redes Inteligentes

Fuentes de Datos

Saber

Identificar el origen y tipo de fuentes de datos.

Big Data para Gestión de Redes Inteligentes

Fuentes de Datos

Saber Hacer

Seleccionar el origen y tipos de fuentes de datos

Big data es un termino que se emplea para referirse a volúmenes de datos informáticos grandes.

Estos volúmenes grandes son totalmente subjetivos al que implementa el termino, de hecho el termino nace como un buzz-word en el ambito de los negocios, pero lo que si es importante reconocer es que un problema que competa al área de big data, son

  • un en el cual el procesamiento de los datos empieza a tener problemas de rendimiento incluso después de haber optimizado los algoritmos empleados,
  • que el volumen de datos que se esta trabajando sea problemático para almacenar de manera persistente,
  • que el volumen de datos maneje estructuras de alta complejidad en cuanto a sus relaciones.

Sin importar si se trata de Big Data o no, es importante saber reconocer de donde tomamos los datos para trabajar y entender la naturaleza de ello.

Una vez que encontramos en donde esta la información que deseamos tratar el siguiente paso es encontrar la manera de poder iniciar algún tipo de procesamiento sobre ellos, por estas razones hay que formar un criterio que podamos seguir para efectivamente determinar si es una fuente de datos de interés y utilidad para el caso de uso.

Esto se puede lograr con mayor facilidad entendiendo el ámbito al que pertenecen los datos, o el tipo de preguntas que te llevan a analizar dichos datos.

Enseguida presentamos áreas en las cuales se maneja big data.

  • Bancos y Finanzas
  • Comunicaciones
  • Entretenimiento
  • Redes Sociales
  • Sector Salud
  • Educación
  • Manufactura
  • Gobiernos
  • Aseguradoras
  • Transportación
  • Energético
  • Científicos

Todos ellos parecen no tener mucho en comun pero en realidad las tecnicas y tecnologías que emplean para hacer manejo de datos son muy similares y en muchos casos las mismas.

Los datos que manejen estos sectores pueden venir en distintas presentaciones, cómo en:

  • Bases de datos Activas
  • Respaldos de bases de datos
  • archivos de texto planos
  • archivos de datos con formatos específicos,
  • en vistas para presentación,
  • bajo demanda del recurso,
  • En sistemas de consultas,
  • entre otros…

Por esto es importante conocer diversas técnicas de para la consulta, copiado, y almacenamiento de dichos datos.

Casos de uso

Categorización de libros

Library Genesis es un sitio que almacena libros (legalidad dudosa), lo interesante es que ofrecen un dump diario de su base de datos con los metadatos de todos los libros almacenados.

Library Genesis

Uno puede explorar los metadatos y llegar a conclusiones interesantes debido a que contiene alrededor de 10 GB de puros meta datos de libros en todos los idiomas.

Esto hace que esta base de datos sea interesante como vehículo educativo debido a que uno se enfrenta muchos problemas de procesamiento y limpia de datos.

Historial del proyecto LINUX

Explorando la historia de linux

Linux es uno de los proyectos mas importantes en la historia de la computación, no por sus capacidades técnicas si no por la cantidad de usuarios que posee, conocer su historia sin duda nos puede revelar cambios importantes en la historia e industria del software y dispositivos electrónicos.

Datos Meteorológicos

Datos meteorologicos CICESE

Conocer los datos meteorológicos, sin duda es de gran valor, en cualquier momento.

Demográficos nacionales

Datos de INEGI

Debido a la transparencia de nuestro gobierno, muchos conjuntos de datos son de acceso publico, interesante destacar que uno puede consultar los resultados de distintos tipos de censos, directamente en las paginas oficiales del gobierno.

Actividad

Explorar fuentes de datos de interés propio e identificar las dificultades para su consulta, extracción, así como describir la naturaleza de ellos.

Documentar el proceso.