Cómo liberar datos: taller de scraping en Hirikilabs

6 y 7 de febrero de 2018, de 16h a 20h. Donostia/ San Sebastian
Foto de Marcin Ignac
Foto de Marcin Ignac.

El web scraping es una técnica que emplea diferentes softwares para extraer datos o información de una página web. Se usa para recoger datos sin estructura y convertirlos en datos estructurados para posteriormente ser tratados en bases de datos u hojas de cálculo. El taller será una aproximación práctica al web scraping con el objetivo de permitir a los asistentes el tratamiento de información útil para sus propios proyectos.

Dónde y cuándo

Cómo liberar datos: taller de scrapping
Hirikilabs
Donostia/ San Sebastian

6 y 7 de febrero de 2018, de 16h a 20h.

Inscripción en la web de Hirikilabs.

Programa

Martes 6 de febrero, de 16h a 20h

  • 1h Introducción: Presentación de la actividad, puesta en contexto y explicación
    del objetivo del taller.
  • 1h Introducción al scraping: Explicación funcionamiento web (HTML, JSON,
    APIs…), e introducción de formas de almacenamiento de la información
    obtenida.
  • 2h Desarrollo scraper: Explicación y puesta en práctica de herramientas iniciales
    para hacer scraping (postman, python, beautifulsoup, etc).

Miércoles 7 de febrero, de 16h a 20h

  • 3h Desarrollo scraper: Continuación de la sesión del día anterior.
  • 1h Introducción a técnicas avanzadas de scraping: Ejecución de Javascript, uso
    de proxies, otras cuestiones surgidas en el desarrollo del taller.

Presentación teórica de Santiago Espinosa

Descargar la presentacion para el taller de web scraping de Santiago Espinosa (PDF 600kB).

Tipo
Charlas y talleres Visualización de datos
Tecnología
Beautiful Soup Python Selenium
Año de publicación
2018
Cliente
Hirikilabs, centro de cultura digital y tecnología.
URL del proyecto
https://wiki.montera34.com/taller-web-scraping-hirikilabs
Repositorio de código
GitHub

Equipo

Montera34

Montera34

En montera34 somos Pablo Rey Mazón, Alfonso Sánchez Uzábal.
Al menos que se diga lo contrario todo el contenido está publicado bajo licencia Creative Commons Reconocimiento Compartir Igual 4.0 Internacional, y el código bajo licencia GNU GPL3.