A Kind of Magic
Posts
Scrape les données d'un site internet

Scrape les données d'un site internet

À la une : Mistral au coude à coude avec ChatGPT

Jean-Charles FABRE
November 21, 2024

Au menu d’aujourd’hui :

🕸️ Scrape les données d’un site internet.
💻 6 autres cas d’usage de Browse.ai en entreprise.
🗞️ À la une : Mistral au coude à coude avec ChatGPT.
💎 6 autres news & découvertes.

🎓 Le tutoriel du jour

Aujourd’hui tu vas apprendre à extraire des données structurées de n’importe quel site internet et à créer tes propres alertes pour en surveiller les changements.

Le problème qu’on va résoudre

Lorsqu’on veut extraire les données d’un site internet, on a plusieurs options à notre disposition :

Le bon vieux copier-coller fait souvent le job, mais il devient inadapté lorsque le volume de données est important ou que le besoin est récurrent.
Les alertes proposées par certains sites, comme Leboncoin, permettent d’être tenu au courant des nouveautés. Mais tous les sites n’en proposent pas, la fréquence est souvent aléatoire et l’information est non structurée.
Les scripts de scraping sont souvent privilégiés lorsque le volume est important ou que le besoin est récurrent. Même si la marche technique pour les mettre en place est moins haute depuis l’arrivée des LLMs comme ChatGPT, ça reste un petit chantier avec de la maintenance.

“Oui mais Buzz, il y a quand même 30 000 produits à surveiller là”.

Avec l’IA, une 4ème option se développe de plus en plus : les robots de scraping, et c’est ce qu’on va découvrir aujourd’hui.

💡 À noter : Le web scraping ou en français “moissonnage” (mouais), est une technique permettant d’extraire automatiquement des données d’un site à partir d’un autre site, d’un programme ou d’un logiciel dans l’optique de les réutiliser.

Il y a évidemment un enjeu de légalité (et d’éthique), je t’en parle dans la FAQ.

La solution étape par étape

À la fin de ce tutoriel, tu sauras comment créer un robot capable d’extraire des données de n’importe quel site internet, et d’en surveiller les changements.

💡 À noter : Parfois copier-coller reste la meilleure solution. Il est intéressant de penser à automatiser une extraction de données lorsque la mise en place de l’automatisation durerait moins longtemps que l’extraction manuelle ou lorsque le besoin est récurrent.

Pour ce tutoriel, on va se mettre dans la peau du responsable e-commerce de la marque Saint-James et on va l’aider à surveiller les prix affichés sur le site internet du concurrent Armor-Lux pour qu’il ajuste au mieux sa stratégie de pricing.

Le duel Bretagne vs Normandie pour revendiquer l’origine de la marinière.

Spécifiquement, on voudrait faire 2 choses :

Obtenir tous les prix des 900 articles soldés lors de la dernière promotion chez Armor-Lux.
Créer une alerte pour surveiller les changements de prix sur le produit phare : la marinière.

L’extraction de données automatisée peut être utile dans de nombreuses situations, voici 6 autres cas d’usage concrets en entreprise :

🏠 Immobilier : Extraire les dernières annonces plus rapidement qu’une alerte.
📞 Sales : Extraire des informations de contact d’un annuaire spécialisé pour alimenter un fichier de prospects.
📣 Marketing : Extraire les informations produits d’un site e-commerce concurrent pour nourrir une étude de marché.
📣 Marketing : Extraire les titres des articles de blog d’un concurrent pour préparer son calendrier de contenus.
🛠️ Produit : Extraire les avis clients publics d’un concurrent pour nourrir la stratégie produit.
🤗 RH : Extraire les derniers jobs sur plusieurs plateformes pour les proposer à son vivier de candidats.

Allez, c’est parti 👇

Étape 1 : Extraire les éléments d’une liste

Du 6 au 18 novembre dernier, Armor-Lux a fait un grande braderie sur plus de 900 produits. Pour informer la stratégie de réponse de Saint-James, on voudrait obtenir un tableau avec la liste de tous les articles soldés, les prix, et un lien vers les pages produits.

C’est un bon cas d’usage pour l’utilisation d’un robot de scraping parce que :

Un copier-coller ça commence à faire long.
Un script de scraping c’est un peu disproportionné.

Rends-toi sur browse.ai et crée un compte (en s’inscrivant, on obtient 50 crédits gratuits qui permettent d’extraire 500 lignes).

Crée un nouveau robot en sélectionnant “Extract Structured Data”

Ajoute le lien de la page à scraper et clique sur “Use Robot Studio” :

Cette étape permet d’entraîner ton robot à extraire les données qui t’intéressent.

Tu arrives sur une page où tu peux naviguer sur le site d’Armor-Lux, sélectionne “Capture Text” dans la partie droite de ton écran.

💡 À noter : Avec “Capture Screenshot” on pourrait suivre des changements non structurés comme des changements de design.

Sélectionne “From a list” et mets ton curseur sur la liste des articles pour indiquer au robot la liste des éléments à extraire.

Assure-toi que tous les éléments que tu souhaites extraire sont dans les rectangles en pointillés.

Wow, notre robot a correctement identifié les champs à extraire de chaque article avec le bon label :

J’ai mis une limite à 100 lignes pour ne pas utiliser tous les crédits du plan gratuit.

Il trouve aussi tout seul le bouton “Afficher plus de produits” qui gère la pagination et nous demande de confirmer.

Le robot nous affiche une prévisualisation des données qu’on a juste à confirmer :

Et voilà, on peut télécharger les données au format csv et les exploiter dans un tableur pour informer notre stratégie de pricing pendant cette période promotionnelle chez notre concurrent.

💡 À noter : Il est intéressant de vérifier qu’il n’existe pas un logiciel spécialisé pour son cas d’usage avant de se lancer dans une extraction automatisée avec un robot.

Pour prendre un exemple, il existe déjà beaucoup de logiciels qui proposent un suivi des prix des concurrents sur Amazon. Les logiciels spécialisés peuvent faire gagner du temps et augmenter le niveau de fiabilité.

Étape 2 : Mettre en place une surveillance sur les prix

Pour aller plus loin, on aimerait maintenant mettre en place une surveillance sur les prix des marinières d’Armor-Lux et être averti lorsqu’il y a un changement.

On va créer un nouveau robot et sélectionner “Monitor Site Changes”

Pour l’exemple, je limite la surveillance aux marinières homme en tricot épais.

Comme dans l’étape 1, on place le curseur sur la liste et notre robot trouve tout seul les éléments à extraire.

Une fois la prévisualisation validée, on peut choisir la fréquence à laquelle notre robot va parcourir la page, et être notifié par e-mail s’il y a des changements sur le texte.

On pourra donc être informé des nouveaux articles et des changements de prix éventuels et réagir en conséquence.

On se crée une alerte personnalisée.

L’outil permet également de se connecter à des applications tierces pour effectuer des actions automatiquement sur les données récoltées. On pourrait par exemple mettre en place un workflow pour suggérer des variations de prix sur nos produits lorsque les concurrents changent leurs prix.

FAQ

Combien ça coûte ? → En s’inscrivant, on obtient 50 crédits gratuits, ce qui équivaut à environ 500 lignes dans un excel. Le premier plan payant commence à $19 / mois et permet d’extraire 100 000 lignes par mois.
C’est légal le web scraping ? → D’après cet article rédigé par une avocate : le web scraping ou l’utilisation de logiciels de web scraping ne sont pas illicites en soi mais il faut veiller à respecter les droits des tiers, en particulier les droits d’auteur, les droits des contrats (les CGU des sites), le droit pénal et le droit de la protection des données (RGPD).
Est-ce que tu recommandes d’autres outils ? → Pour ce tutoriel, j’ai testé 7 autres outils (bardeen.ai, octoparse, data miner, kadoa, import.io, parsehub et firecrawl) et j’ai trouvé que browse.ai était le meilleur pour les 2 cas d’usage du tutoriel. C’est d’ailleurs le seul à avoir passé l’épreuve de la pagination (cliquer sur “Afficher plus de produits”).

🕺One dream, one soul ?

Tu as apprécié ce tutoriel ? Tu penses à quelqu’un qui pourrait en bénéficier ?

N’hésite pas à lui partager par Slack, Teams, Whatsapp, e-mail ou avion en papier.

Ça fera peut-être un heureux et ça m’aide énormément pour développer le projet.

Un grand merci ;)

🗞️ À la une

🇫🇷 Mistral au coude à coude avec ChatGPT

La startup française Mistral vient de dévoiler Pixtral Large, un modèle multimodal de 124 milliards de paramètres, le plus avancé de son portfolio. Ce modèle surpasse les meilleurs systèmes actuels, notamment Gemini 1.5 Pro et GPT-4o, en matière de raisonnement mathématique et de compréhension de graphiques ou documents complexes.
Parallèlement, la plateforme Le Chat de Mistral rattrape son retard sur ChatGPT et Claude grâce à des fonctionnalités comme la recherche web, l’analyse de documents, la génération d’images (alimentée par Flux Pro de Black Forest Labs) et un outil de création collaborative en temps réel appelé Canvas.

💎 Autres news & découvertes

OpenAI annonce "Operator" pour janvier 2025, un agent autonome capable d'interagir avec ton ordinateur de manière autonome. Cette annonce fait suite au lancement en bêta de “Computer use” chez Anthropic.
Des e-mails échangés entre Sam Altman et Elon Musk entre 2015 et 2018 ont été rendus publics dans le cadre de leur procès.
Coca-Cola revisite sa célèbre pub de Noël de 1995 avec de l'IA (avant / après).
Spotify permet de créer des playlists personnalisées à partir d'un prompt (dispo aux US).
Perplexity lance une fonctionnalité de shopping pour les utilisateurs pro (dispo aux US).
L'opérateur téléphonique britannique O2 lance "Daisy", une IA virtuelle qui fait perdre du temps aux scammers en se faisant passer pour une grand-mère bavarde.

🎤 À toi le micro

Voilà, c’est la fin de cette 4ème édition de A Kind of Magic, j’espère qu’elle t’a été utile.

Help me help you.

J’essaye d’être le plus utile possible avec cette newsletter, alors n’hésite pas à me :

Déléguer des recherches IA pour des problématiques de ton travail.
Demander des recommandations d'outils pour ton cas d'usage.
Partager tes expérimentations avec l'IA.
Faire du feedback sur le contenu de la newsletter.

Dispo pour échanger en réponse à cet e-mail ou sur Linkedin.

À jeudi prochain !

Jean-Charles