ScrapMe: tutoriel & support
ScrapMe est une fonction de scraping (= récupération de données sur des sites web) spécialement conçue pour Google Spreadsheet.
Pour utiliser la fonction ScrapMe pour Google Spreadsheet, vous devez préalablement créer un compte sur Arnoweb TV (gratuit en 20 secondes). Cela vous permet ainsi de récupérer une clé privée et le code à utiliser dans Google Spreadsheet.
Veuillez respecter les conditions d’utilisation des sites web avant de démarrer le scraping.
ScrapMe
Il vous simplifie la récupération de données directement via Google Spreadsheet.
Contrairement à certains services existants qui vous bloquent au bout de quelques centaines d’URLs scrapées, avec les abonnement Premium de ScrapMe, vous pouvez scraper des milliers d’URLs chaque mois.
De plus, pour éviter d’être bloqué / blacklisté par certains sites web qui utilisent des systèmes de détection des bots de scraping, ScrapMe utilise un système pour passer inaperçu. Grâce à un système de rotation d’adresses IP, rotation user-agents (navigateurs web), rotation en tête http, utilisation de cookies, etc.
Cela permet de simuler une multitude d’utilisateurs différents plutôt que de laisser penser à un seul et même bot.
D’autre part, vous pouvez scraper des données non seulement à partir du Xpath mais aussi à partir de raccourcis tels que l’email, le téléphone, url facebook, titre de page, etc.
Vous devez d’abord créer un compte sur Arnowebtv.com en 20 secondes (c’est gratuit).
- Ensuite connectez-vous sur la page du Dashboard ici.
- Vous devez maintenant cliquer sur le lien pour obtenir votre clé privée.
- Vous verrez sur cette page un bloc de code à copier / coller dans votre feuille Google Spreadsheet
- Ouvrez donc une feuille Google Spreadsheet
- Dans le menu du haut, cliquez sur « Extensions » puis « Apps Script »
- Sur l’écran qui s’affiche, retirez tout le code et collez le code indiqué ci-dessus.
- Cliquez sur l’icône de la disquette pour sauvegarder, puis vous pouvez fermer cet onglet.
- Voilà ! Vous pouvez maintenant utiliser la fonction SCRAPME dans votre fichier Spreadsheet.
La fonction ScrapMe de Google Spreadsheet, coûte de l’argent lors du scraping de chaque URL.
Lorsque vous avez créé un compte gratuitement, vous pouvez l’utiliser pour scraper quelques centaines d’URLs.
Mais vous pouvez scraper plusieurs milliers d’URLs en prenant un abonnement Premium, Gold ou Diamond sur Arnoweb TV.
Copiez / collez ceci dans une cellule de Google Spreadsheet:
=SCRAPME("https://www.thewebsite.com";"//html/body/title")
Il y a 2 paramètres:
– L’URL à scraper
– Le Xpath (ou le raccourci) qui correspond à l’emplacement exact dans la page.
Si vous scrapez beaucoup d’URLs à la fois, il faut que les pages utilisent le même template (même structure) afin que le Xpath fonctionne pour toutes les pages.
Comme vous pouvez le voir plus bas dans cette FAQ, il y a des raccourcis pour éviter de saisir le Xpath dans certains cas.
Dans la fonction ScrapMe, en plus de l’URL, vous devez indiquer l’emplacement exact sur la page qu’il faut récupérer pour l’importer dans votre fichier Spreadsheet.
Le Xpath ressemble à quelque-chose comme cela:
//html/title
//*[@id= »post-36″]/div/div/h1
Ca commence par le haut de la page HTML, jusqu’à l’emplacement exact au sein des sous sections HTML.
Pour l’obtenir:
1) Allez simplement sur la page que vous voulez scraper
2) Puis faites un clic droit -> « Inspecter » sur l’élément que vous voulez récupérer
3) La Toolbar qui s’est ouverte sélectionne l’élément HTML que vous avez sélectionné
4) Faites un clic droit sur cet élément HTML concerné, puis clique sur « Copier » , puis « Copier Xpath »
5) Ca y est ! Vous avez copier le Xpath qu’il vous reste à coller dans Spreadsheet
Oui c’est possible
Vous pouvez utiliser des raccourcis à la place du Xpath, spécialement conçu pour ScrapMe:
– title: pour afficher le titre de la page (onglet du navigateur)
– metadescription: la balise utilisée pour les moteurs de recherche
– h1: la balise titre principale de la page
– h2: la balise sous titre de la page
– email: le premier email présent dans la page
– emailall: tous les emails présents dans la page (séparés par une virgule)
– tel: numéro de téléphone dans la page
– url: première url détectée dans la page
– urlall: toutes les urls détectées dans la page
– facebook: première url Facebook dans la page
– facebookall: toutes les URLs Facebook dans la page (séparées par une virgule)
– instagram: première url Instagram dans la page
– instagramall: toutes les URLs Instagram dans la page (séparées par une virgule)
– linkedin: première url Linkedin dans la page
– linkedinall: toutes les URLs Linkedin dans la page (séparées par une virgule)
– twitter: première url Twitter dans la page
– twitterall: toutes les URLs Twitter dans la page (séparées par une virgule)
– tiktok: première url Tiktok dans la page
– tiktokall: toutes les URLs Tiktok dans la page (séparées par une virgule)
– video: première url contenant un fichier vidéo dans la page
– videoall: toutes les URLs contenant des fichiers vidéos dans la page (séparées par une virgule)
– music: première url contenant un fichier audio dans la page
– musicall: toutes les URLs contenant des fichiers audio dans la page (séparées par une virgule)
Vous pouvez utiliser le sitemap XML du site web concerné. (ex: www.siteweb.com/sitemap.xml)
Vous pouvez aussi utiliser mon App pour extraire des URLs. (améliorations à venir)
1 crédit est débité par URL scrapée tous les 24 heures.
Si vous scrapez exactement la même page plusieurs fois en 24 heures, ce n’est pas décompté. (par exemple pour récupérer le titre, email, nom, etc)
Au delà de 24 heures, l’URL scrapée débite à nouveau du crédit.
Cela veut aussi dire qu’il y a un système de cache de 24h. Si le contenu sur le site a été actualisé il y a moins de 24 heures, vous devrez donc attendre 24 heures pour que la nouvelle version de la page soit scrapée.
IMPORTANT: Si vous avez beaucoup de lignes qui utilisent la formule « ScrapMe », pensez impérativement à sauvegarder les valeurs extraites de votre Google Sheets dès que l’extraction est terminée. En effet vous avez 24h pour le faire sans quoi, cela relancera le scraping lorsque vous rechargerez votre fichier Google Sheet.
Pour cela:
1) Sélectionnez toutes les cellules où a été extrait le contenu
2) Faites « Copier »
3) Ensuite faire un « Collage spécial » -> « Valeur uniquement »
4) Voila vous avez sauvegardé les valeurs
Connectez-vous dans votre Dashboard
Ensuite cliquez sur « Afficher ma clé privée » -> Vous verrez ainsi votre clé privée (token) ainsi que le crédit restant.
Lorsque vous ouvrez un Google Spreadsheet que vous avez utilisé il y a plusieurs jours, cela est embêtant si toutes vos URLs sont de nouveau scrapées si vous aviez déjà récupéré le contenu…
Cela va vous couter du crédit, surtout si ces pages ont été scrapées depuis plus de 24 heures.
Pour remédier à cela:
1) Sélectionner toutes les cellules avec les contenus scrapés.
2) Faire un « Copier »
3) Faire « Coller les valeurs uniquement ». Cela permet d’écraser la formule par la valeur récupérée.
Cela permet d’écraser les formules ScrapMe afin de ne conserver que les valeurs obtenues.
Les sites web les plus populaires comme Google, Facebook, Amazon, etc utilisent massivement des systèmes anti-scraping.
(beaucoup d’autres sites aussi mais pas avec autant de moyens)
Ils investissent des millions d’euros dans des algorithmes & IA pour détecter les systèmes de scraping.
Il est donc possible (mais pas forcément) que vous rencontriez plus de difficultés pour scraper ces sites web bien que ScrapMe utilisent des systèmes pour passer inaperçu.
Important: pour éviter d’être débité plusieurs fois pour la même URLs déjà scrapée, pensez bien à sauvegarder les données déjà récupérées. Pour cela:
1) Dans Google Sheets, sélectionner toutes les cellules avec les contenus scrapés.
2) Faire un « Copier »
3) Faire « Coller les valeurs uniquement ». Cela permet d’écraser la formule par la valeur récupérée.