Webscraping

Statut actuel

Non-inscrit

Tarif

24,90 €

Commencer

Apprenez à collecter et exploiter les données disponibles sur le web grâce à notre formation complète sur le Web Scraping. Que vous soyez débutant ou déjà familier avec la programmation, cette formation vous guidera à travers chaque étape essentielle pour extraire, nettoyer et analyser des données depuis des sites web.

Vous découvrirez les outils incontournables tels que BeautifulSoup, Requests, Selenium et lxml pour récupérer et manipuler les données en toute simplicité. Vous apprendrez aussi à gérer les défis des sites dynamiques, à contourner les protections anti-scraping et à respecter les bonnes pratiques pour un scraping éthique. À la fin de cette formation, vous serez capable de créer vos propres scripts de scraping, d’automatiser le processus de collecte de données et d’analyser les informations extraites pour vos projets professionnels. Profitez de cette opportunité pour maîtriser une compétence clé dans l’ère de la donnée.

Ce cours contient :

- Une version écrite et très détaillée de tous les chapitres ;

- Une vidéo de chaque chapitre de la formation ;

- Des quiz après chaque chapitre pour tester la compréhension ;

- Des exercices et travaux pratiques corrigés ;

- Des projets et cas réels ;

- Un quiz final pour tester et valider la maitrise du module.

 

Un Certificat qui atteste de la bonne maitrise de ce cours est délivré à l'apprenant qui a réussi les différentes évaluations.

 

Un suivi régulier par un collaborateur progcours est possible moyennant des frais supplémentaires.

Contenu Cours

Introduction au Web Scraping
Objectifs du Web Scraping
Éthique et légalité
Outils nécessaires
Fondamentaux du Web
HTML, CSS et JavaScript
Naviguer dans le DOM
Requêtes HTTP : GET, POST, Headers, Cookies
Outils de Web Scraping avec Python
BeautifulSoup : installation, syntaxe, extraction
Requests : envoyer des requêtes HTTP et récupérer des pages
lxml : parsing rapide et efficace
Selenium : web scraping dynamique avec JavaScript
Extraction et Nettoyage des Données
Sélectionner et extraire des éléments HTML (balises, classes, id)
Nettoyage : traitement des erreurs et valeurs manquantes
Gérer les données structurées : tableaux, listes, images, liens
Exportation : CSV, JSON, Excel
Gestion des Sites Dynamiques et Anti-Scraping
Utiliser Selenium pour les pages JavaScript
Gestion des CAPTCHAs et Cookies
Utilisation de Proxy pour l’anonymat
Optimisation et Bonnes Pratiques
Bonnes pratiques : fréquence des requêtes, robots.txt
Gestion des erreurs et exceptions : redirections, erreurs 404/503
Optimisation des scripts et éviter le bannissement
1 de 2