Dans le cours : ChatGPT : Apprendre à développer en Python

Pratiquer le web scraping

Le web-scraping représente une composante essentielle pour de nombreux projets de data science. En effet, l'une des premières étapes d'un projet data science consiste à collecter les données. Justement, le web-scraping permet de procéder à la collecte de données à partir de sites web. Les données extraites peuvent dès lors être enregistrées dans un fichier de votre ordinateur, ou encore intégrées de manière structurée dans une base de données. Dans la présente séquence, nous nous intéressons à l'utilisation de ChatGPT pour réaliser une application de web-scraping avec la bibliothèque Beautiful Soup de Python. Tout d'abord, nous allons montrer le lien qui nous intéresse. Il s'agit d'une page Wikipédia concernant la Panthère noire. Nous allons copier ici l'URL, puis nous rendre sur ChatGPT. Nous utilisons alors le prompt suivant : Développer le web-scraping en " Python " en utilisant la librairie " Beautiful Soup ", qui est réputée pour son efficacité dans le domaine du web-scraping, et on continue à partir de l'URL suivant en précisant l'URL. Nous exécutons, et nous obtenons la réponse suivante : nous avons un exemple de code Python en utilisant la bibliothèque Beautiful Soup pour extraire des données à partir de la page Wikipedia. Tout d'abord, l'explication concerne l'installation de la librairie Beautifulsoup, et ensuite nous avons le code pour extraire le titre de la page, le premier paragraphe ainsi que la liste des sous-titres. Il suffit alors de copier le code de l'installation et de procéder à l'installation avec Jupyter Notebook, puis de copier le code concernant l'extraction du titre de la page, le premier paragraphe ainsi que la liste des sous-titres. Rendez-vous ensuite sur Jupyter Notebook, et nous avons en premier lieu l'installation de la librairie beautifulsoup, comme suggéré par ChatGPT. Une fois exécuté, nous pouvons alors exécuter le code pour réaliser notre application de web-scraping. Lorsque le code est exécuté, nous obtenons les résultats souhaités, à savoir ici le titre de la page, Panthère noire. Ensuite, le premier paragraphe : Cet article est une ébauche concernant un félin. Et nous avons aussi la liste des sous-titres : " Sommaire ', ' Fiction ', etc. Maîtriser le web-scraping est certes un atout majeur pour tout data scientist, et comme nous avons pu l'apprécier dans cette vidéo, déployer une application de web-scraping avec Python se fait en quelques clics grâce à l'utilisation de ChatGPT.

Table des matières