Collecte et analyse de données Web : formation en ligne certifiante de Data-Pop Alliance !
Cours technique : Collecte et analyse de données Web
Parcours
Face à face
Partenaire de l’ONU
Proposé par
Data-Pop Alliance
Niveau
Avancé
Longueur
3 jours
Effort
18 heures par semaine
Régions
Amérique latine et Caraïbes
Asie et Pacifique
Afrique
Langues
Anglais
Espagnol
Prix
À déterminer
Certificat
Oui
Conçu pour les professionnels qui jouent un rôle dans la définition de la manière dont les données peuvent stimuler le progrès social d’un point de vue technique, ce cours vous apprendra comment extraire des données de manière programmatique du web et quels modèles peuvent être appliqués pour tirer des conclusions de ces données.
ODD
ODD17 : Partenariats pour les objectifs
ODD 17 : Problèmes systémiques
Sujet
Science des données pour les équipes statistiques
Statistiques
Méthodologie et processus statistiques
Traitement et analyse des données
Mots-clés
Analyse des données
Collecte et manipulation des données
Littératie des données
Science des données
Apprentissage automatique
À
propos Alors que le site dispose de composants interactifs ou d’une API complète, ce cours vous apprendra comment extraire des données de manière programmatique du web et quels modèles peuvent être appliqués pour tirer des conclusions de ces données. À titre d’études de cas, nous développons un taux de change PPA en utilisant uniquement les loyers immobiliers dans certains pays d’Amérique latine et nous étudions les flux migratoires à l’aide de l’API Facebook Marketing.
Sujet
L’utilisation du Big Data s’accélère dans le développement et la pratique humanitaire. Si elle est bien utilisée, sa mise en œuvre peut favoriser l’inclusion, l’efficacité et réduire les coûts du projet, ce qui peut bénéficier aux organisations publiques et privées impliquées dans les programmes de développement. Ainsi, nos cours techniques couvrent différents aspects de la science des données et de l’ingénierie des données, pertinents dans le contexte des statistiques officielles et du développement durable.
Méthodologie
Tout le matériel de programmation est fourni en Python à l’aide des bibliothèques Open Source conventionnelles pour la science des données. La plupart des sessions sont interactives et se déroulent sur un Jupyter Notebook (.ipynb). Un exercice pratique est réalisé à la fin de chaque séance.
Format et enseignants Ce
cours est proposé en présentiel (ou par vidéoconférence si nécessaire), il a une durée de 18 heures idéalement réparties sur 3 jours, et est conçu pour 20 participants. Chaque cours est dispensé par une équipe de 2 spécialistes de la formation.
Exigences
Une certaine expérience en programmation est requise ; Python est préférable même si ce n’est pas nécessaire.
Témoignage d’un participant
: « Tout le parcours était excellent. C’est formidable d’avoir l’opportunité de participer à des qualifications sur des questions modernes pertinentes pour notre travail ».
Programme de cours
- Collecte via un émulateur de navigateur web
Les sites web modernes comportent généralement des composantes interactives. Nous nous concentrons sur l’utilisation d’émulateurs de navigateurs web, notamment le pilote web Selenium, pour exploiter ces composants de manière programmatique.
Le cas d’usage de ce module est une plateforme de location immobilière, où les loyers sont perçus.
Les méthodes de collecte utilisées pour cette plateforme sont applicables à plusieurs sites de commerce électronique qui présentent une structure de catalogue similaire pour exposer leurs produits.
- Collecte via des API
Les grandes et moyennes plateformes web exposent couramment leurs données via des interfaces de programmation d’applications web (API). Nous apprenons comment ces systèmes peuvent être facilement manipulés via des bibliothèques open source générales sous forme de requêtes ou des bibliothèques dédiées dans le cas de grandes plateformes comme Facebook avec la bibliothèque officielle du SDK de marketing Facebook.
Les modules Facebook ont été inspirés par le travail remarquable de nos collègues de l’Institut de recherche en informatique du Qatar à la HBKU, de l’UNICEF, du MIT Media Lab, de l’iMMAP Colombie et du Global Protection Cluster du HCR, intitulé « Surveillance en temps réel de l’exode vénézuélien via la plateforme publicitaire de Facebook » (voir publication ici).
- Analyse et visualisation des données dérivées du web
L’analyse des données collectées sur le web est complexe car ces données sont souvent bruyantes et biaisées. Nous étudions comment ces défis peuvent être abordés par des techniques de modélisation adéquates. De plus, la visualisation comme moyen d’extraire des connaissances à partir de données est également fondamentale lorsqu’on traite avec des données collectées par le web.
Nous couvrons quelques procédures de nettoyage de base, différents modèles d’apprentissage automatique ainsi que des visualisations statiques et interactives. Tout en utilisant les bibliothèques open source les plus populaires de la pile Python Data Science.
Public cible
Ce cours s’adresse aux professionnels pour lesquels la programmation fait partie de leurs activités quotidiennes ou qui dirigent une équipe technique.
Objectifs d’apprentissage
À la fin de l’atelier, vous serez en mesure de :
- Collecter des données web via Selenium, un émulateur de navigateur web, et Python.
- Collecter des données web via des API utilisant Python.
- Analyser et visualiser des données dérivées du web à l’aide de la pile Python Data Science.
Lire aussi : Agriculture et systèmes alimentaires : formation en ligne gratuite de la FAO