Herramientas para el procesamiento de datos

Miguel Alejandro Salgado Zapien

2021-05-10

Durante la clase pasada se realizaron algunas investigaciones ligeras para identificar algunos términos importantes para el área, así como definir algunas de las diferencias entre las áreas involucradas.

El día de hoy vamos a instalar un ambiente de desarrollo utilizando el lengua Python para trabajar de la siguiente manera el resto del cuatrimestre.

Nota los siguientes tres temas, serán adquiridos durante la marcha sin especificar a que tema pertenecen, para verificar el Saber, se les aplicara un examen de conceptos donde el conocimiento adquirido durante los siguientes pasos (probablemente 2 clases, máximo 3), sera el conocimiento a evaluar.

Durante la materia de Introducción al big data se ofreció una serie de pasos para realizar la configuración necesaria, así que vamos a seguir aquel documento, y concluido regresamos a la entrada de diario correspondiente a esta materia.

Documento a seguir

Antes de seguir por favor continué con estas diapositivas, léalas, y después proceda con la configuración modificando acorde.

Instalación de dependencias.

Ademas de las dependencias necesarias mencionadas en el documento proporcionado, hay que instalar:

Solo agregue dichos módulos al comando pip.

PyYAML, toml, json (ya incluido)

Son módulos para trabajar con archivos yaml, toml y json.

matplotlib

Es un modulo para la generación de gráficos, y ofrece una api al usuario apegada al api de gráficos ofrecida por MatLab, asi como una api orientada a objetos.

Mayormente utilizaremos la orientada a objetos.

pandas

Es un modulo para el manejo de series de datos y marcos de datos, que son estructuras de datos para representar arreglos de datos unidimensionales y bidimensionales, respectivamente.

Básicamente Tablas y Renglones

Y ofrece una amplia cantidad de funciones para el procesamiento de estos.

numpy y scipy

Son módulos para el procesamiento de datos numéricos principalmente, y entre ambos constituyen el una de las herramientas mas fuertes, comunes y practicas de el lenguaje Python.

La mayor parte de los usuarios del lenguaje Python que se dedican al procesamiento de datos, logran demostrar un domino sobre estos módulos.

scikit-learn

Es un modulo para realizar procesamiento de inteligencia artificial así como otro tipo de cálculos estadísticos.

Existen alternativas mas eficientes, pero esta librería esta construida a partir de numpy lo que hace el manejo de ella muy sencillo e introduce una curva de aprendizaje corta respecto a otras.

requests y requests-html

Son módulos para la interacción con servicios HTTP, uno nos ofrece la interacción pura y la otra cuenta con utilitaria para el manejo de documentos HTML provenientes de las respuestas de las llamadas HTTP.

ffmpeg

Este es un programa (también conocido como la librería avlib), para hacer manejo de archivos de media en general.

Es posible instalarlo como linea de comando, o como modulo para casi cualquier lenguaje de programación.

Para Python se descarga el modulo ffmpeg-python.

Ahora hay que proceder a instalar el ambiente.