lunes 04 de enero, 2021
Identificar el origen y tipo de fuentes de datos.
Seleccionar el origen y tipos de fuentes de datos
Big data es un termino que se emplea para referirse a volúmenes de datos informáticos grandes.
Estos volúmenes grandes son totalmente subjetivos al que implementa el termino, de hecho el termino nace como un buzz-word en el ambito de los negocios, pero lo que si es importante reconocer es que un problema que competa al área de big data, son
Sin importar si se trata de Big Data o no, es importante saber reconocer de donde tomamos los datos para trabajar y entender la naturaleza de ello.
Una vez que encontramos en donde esta la información que deseamos tratar el siguiente paso es encontrar la manera de poder iniciar algún tipo de procesamiento sobre ellos, por estas razones hay que formar un criterio que podamos seguir para efectivamente determinar si es una fuente de datos de interés y utilidad para el caso de uso.
Esto se puede lograr con mayor facilidad entendiendo el ámbito al que pertenecen los datos, o el tipo de preguntas que te llevan a analizar dichos datos.
Enseguida presentamos áreas en las cuales se maneja big data.
Todos ellos parecen no tener mucho en comun pero en realidad las tecnicas y tecnologías que emplean para hacer manejo de datos son muy similares y en muchos casos las mismas.
Los datos que manejen estos sectores pueden venir en distintas presentaciones, cómo en:
Por esto es importante conocer diversas técnicas de para la consulta, copiado, y almacenamiento de dichos datos.
Library Genesis es un sitio que almacena libros (legalidad dudosa), lo interesante es que ofrecen un dump diario de su base de datos con los metadatos de todos los libros almacenados.
Uno puede explorar los metadatos y llegar a conclusiones interesantes debido a que contiene alrededor de 10 GB de puros meta datos de libros en todos los idiomas.
Esto hace que esta base de datos sea interesante como vehículo educativo debido a que uno se enfrenta muchos problemas de procesamiento y limpia de datos.
Explorando la historia de linux
Linux es uno de los proyectos mas importantes en la historia de la computación, no por sus capacidades técnicas si no por la cantidad de usuarios que posee, conocer su historia sin duda nos puede revelar cambios importantes en la historia e industria del software y dispositivos electrónicos.
Conocer los datos meteorológicos, sin duda es de gran valor, en cualquier momento.
Debido a la transparencia de nuestro gobierno, muchos conjuntos de datos son de acceso publico, interesante destacar que uno puede consultar los resultados de distintos tipos de censos, directamente en las paginas oficiales del gobierno.
Explorar fuentes de datos de interés propio e identificar las dificultades para su consulta, extracción, así como describir la naturaleza de ellos.
Documentar el proceso.