Herramientas para el procesamiento de datos.

Miguel Alejandro Salgado Zapien

2021-05-20

Durante la clase pasada estuvimos construyendo un resume json.

El día de hoy analizaremos los datos obtenidos.

Si no ha terminado su resume, daremos 10 min para ello.

En esta ocasión daremos instrucciones para realizar un pre procesamiento de los datos.

Para ello utilizaremos la librería pandas, y se asumirá dominio sobre el manejo de listas y diccionarios.

Introduciremos nuevas estructuras de datos especifica de pandas nombrada Serie y Marco de Datos.

  1. Construir una serie de datos con incides claros para cada uno de los currículum.
  2. Construir un marco de datos a partir de las series construidas
  3. Indexar los renglones por matricula
  4. Limpiar los datos (corregir inconsistencias y definir códigos clave).
  5. Obtener coordenadas GPS para cada dirección
  6. Generar una tabla de skills vs skill keyword.
  7. Realizar consultas para responder preguntas sobre estos datos.
  8. Generar visualizaciones gráficas para estos datos.

Durante este proceso nos encontraremos con ciertos problemas que tenemos que resolver utilizando distintas técnicas de extracción de datos como lo es realizar solicitudes HTTP a distintos servicios.

Seguir el ejemplo en json_resume_analysis.ipynb

Leer mas