lundi 6 janvier 2020

Tutoriel. Extraire des données d'une page web

Dans le meilleur des mondes et dans des gouvernements ouverts, les journalistes ont accès à des données ouvertes, c’est-à-dire immédiatement exploitables pour les autres étapes du processus du data journalisme (préparation, analyse, visualisation). 

Cependant, le plus souvent, les données dont les journalistes ont besoin ne sont pas ouvertes. Dans certains cas, elles doivent être collectées ou tirées d’autres sources (généralement le web). Dans ce cas, certaines compétences sont utiles, comme le « web scraping », terme désignant, dans le jargon des « data nerds », la capacité à extraire/collecter les données du web. 

Dans la vidéo ci-dessous, je présente une technique basique et sans code pour extraire automatiquement des données (structurées en tableaux ou listes) d'une page web HTML vers une feuille de calcul. Il s’agit de la fonction IMPORTHTML de Google Sheet. 

Cette technique utilise l'URL de la page, le type de données ("table" ou "list") et un index numérique pour spécifier l'élément à importer.

 


 

Télécharger les resources:

- La fonction IMPORTHTML et liens pour s'exercer

- Consommation d'alcool dans le monde (Excel)


Aucun commentaire:

Enregistrer un commentaire