Scraping avec Python : Formation Complète 2024

Merci à happytodev pour sa contribution le 17/02/2024

Docstring
Francais Francais
scraping
python
🚀 20$ offerts sur Bright Data en créant un compte avec ce lien : https://brdta.com/docstring
Retrouvez Bright Data sur leur chaîne YouTube : @BrightData

Apprenez le scraping en partant de 0 avec cette formation complète. Cette formation est réalisée avec Python mais toute la théorie du scraping et du contournement des blocages peut s'appliquer à n'importe quel langage permettant de faire du scraping.

----------------------------------------------------------

PRÉREQUIS :
Pour suivre cette formation avec Python, vous devez maîtriser les bases du langage : https://www.youtube.com/watch?v=LamjAFnybo0

----------------------------------------------------------

🔗 Sources des scripts
https://github.com/DocstringFr/formation-scraping-youtube

🖥️ Créez votre VPS sur Infomaniak
https://www.infomaniak.com/fr/hebergement/vps-cloud?utm_source=youtube&utm_medium=social&utm_campaign=docstring&utm_term=65aa5df4e7416

🔗 Ma formation complète Python sur Udemy (+60h de formation)
● https://bit.ly/3iGZu9a

🔖 Abonne-toi à Docstring
● https://www.docstring.fr/formules/?utm_source=youtube&utm_campaign=scraping-complet

💬 Rejoins-nous sur le serveur Discord
● https://www.docstring.fr/discord/?utm_source=youtube&utm_campaign=scraping-complet

----------------------------------------------------------

===== CHAPITRES =====
00:00:00 Introduction
00:03:13 Le programme de la formation
00:07:58 Définition du scraping
00:08:56 Les prérequis
00:11:06 Les obstacles (et la solution)
00:13:20 PARTIE 1 : les bases du scraping
00:18:26 Récupérer le contenu d'une page avec requests
00:24:35 Analyser le contenu d'une page avec BeautifulSoup
00:33:41 Récupérer des informations avec BeautifulSoup
00:43:03 Analyser la page d'accueil des livres
00:54:56 À vous de jouer !
01:04:32 Exercices simples : Introduction
01:06:08 Récupérer les catégories avec un seul livre
01:08:40 Solution
01:32:01 Récupérer les livres notés 1 étoile
01:35:44 Solution
02:08:18 Exercice avancé : Introduction
02:09:08 Énoncé de l'exercice
02:10:23 Présentation de Selectolax et Loguru
02:18:04 Préparation d'un cahier des charges
02:28:32 Création du corps du script
02:47:46 Récupération du prix d'un livre
03:12:41 Récupérer toutes les URL sur une page
03:24:48 Récupérer l'URL de la prochaine page
03:30:54 Récupérer toutes les URL de la librairie
03:38:44 Récupérer la valeur totale de la librairie
03:46:51 Optimisation de notre script avec les sessions
03:53:09 Conclusion
03:53:59 PARTIE 2 : contourner les obstacles
03:55:57 Ce que dit la loi
03:56:38 Les CGU
03:59:25 Le RGPD
04:00:49 L'affaire entreparticuliers.com VS Leboncoin
04:01:58 Exemples de scraping licite et illicite
04:04:59 Le fichier robots.txt
https://robots-txt.com/
04:09:10 Entrevue avec Rony SHALIT
https://brightdata.fr/trustcenter
https://help.brightdata.com/hc/en-us/articles/11439997100945-Bright-Data-s-Site-Health-Monitor
04:46:29 Les blocages techniques
04:50:43 Les blocages volontaires
04:52:04 Le blocage par limitation de requêtes
04:59:18 Le blocage avec le user-agent
05:04:55 Présentation de Playwright
05:10:46 Utiliser playwright pour afficher le javascript
05:20:14 Interagir avec le DOM
05:26:22 Les méthodes indispensables à connaître
05:37:45 La solution Bright Data
05:38:43 Tour d'horizon de la plateforme
05:45:04 Créer votre compte sur Bright Data
05:48:28 Utiliser le réseau de proxy résidentiel
05:57:59 Utiliser le web unlocker
06:02:12 Utiliser le scraping browser
06:09:47 PARTIE 3 : Récupérer des données sur AirBnB
06:11:01 Préparation d'un scraping éthique
06:15:04 Analyse du site pour préparer le scraping
06:20:44 Créer le projet et installer les librairies
06:24:21 Scraping simple avec requests
06:29:15 Sauvegarder le HTML sur le disque
06:34:57 Récupérer le HTML depuis le disque
06:42:39 Récupérer les données de prix
07:03:49 Lancer le script en ligne de commande
07:06:11 Scraping avancé avec Playwright
07:15:46 Passer à travers toutes les pages
07:25:09 Utiliser le scraping browser de Bright Data
07:33:44 Automatiser l'ouverture du débogueur
07:39:11 Minimiser la bande passante
07:43:20 Naviguer jusqu'à la page des recherches
07:52:09 Passer au mois suivant
08:09:57 Faire défiler les mois
08:22:14 Récupérer le prix et finaliser le script
08:34:01 PARTIE 4 : Système d'alerte e-commerce
08:35:16 Les outils utilisés
08:38:01 Préparation d'un scraping éthique
08:39:55 Récupérer le HTML avec requests
08:52:47 Ajouter les variables d'environnement
08:54:57 Utiliser le Web Unlocker
09:00:09 Garder l'historique des valeurs sur le disque
09:04:45 Comparer la valeur actuelle avec la précédente
09:08:17 Ajouter la fonction d'alerte avec Pushover
09:11:27 Ajouter le logger
09:17:44 Terminer la fonction principale
09:28:02 Envoyer les fichiers sur le VPS
09:32:41 Créer un Cron Job
09:39:17 Enlever l'avertissement avec urllib
09:40:45 Ajouter les alertes Sentry
09:50:22 Outro