Published on

Proxy scraping, bien choisir vos proxies résidentiel, rotatif, statique

Le scraping est une méthode efficace pour récupérer de l'information sur l'open web et l'exploiter. Pour des fins statistiques, de construction de bases de données, ou pour enrichir celles-ci. L'idée est simple, elle consiste à parcourir un ensemble de pages pour récupérer des informations que l'on a déterminées au préalable.

Pourquoi utiliser un proxy pour le scraping ?

Il n'est pas obligatoire de passer par un proxy pour lancer vos scripts de scrap à petite échelle ou pour réaliser vos tests, vous pouvez passer directement par votre machine, qui va résoudre votre adresse IP simplement.

En revanche si vous avez des besoins plus importants il va falloir passer par un proxy, nous verrons par la suite comment choisir une solution en fonction du besoin. Le proxy va permettre de modifier votre IP pour une ou plusieurs requêtes. Le but étant de passer les différentes barrières qui détecte les navigations un peu trop rapides ou en trop grande quantité d'un seul coup.

Les proxys permettent d'exécuter un seul et même script sur une machine et de sortir sur internet avec plusieurs ÌP différentes. Cela suffit quasiment à coup sûr pour rester sous les radars de détections de bot. A savoir qu'il existe également des blocages par pattern, plus compliqué à détourner, mais ils arrivent à bloquer très rapidement, même en passant par des proxies classiques. Rassurez-vous, il est toujours possible de contourner le problème, ce n'est qu'une question de temps.

Types de proxies pour scraper sur internet

Il existe plusieurs type de proxys, leurs coûts va varier en fonction de la ressource que cela demande pour récupérer la page que vous souhaitez à coup sûr. Le moins cher étant le proxy classique, unique, vous sortez sur une seule IP dédiée, qui est la votre, cela reste efficace, parfois même obligatoire quand vous devez avoir une cohérence d'adresse IP pour vous connecter à un service, par exemple Instagram, Twitter ou encore Linkedin qui détecte le changement d'IP à la connexion et qui peut vous demander de remplir des étapes de sécurité en plus, ce que nous ne voulons pas.

Proxy classique

Le plus répandu et certainement le moins cher est le proxy simple, vous allez louer une IP dédiée qui vous sera attribuée en fonction du pays que vous souhaitez desservir. il s'agit généralement d'une adresse d'un serveur, d'un port et d'un mot de passe qui permet de vous identifier pour passer à travers le proxy.

Il faut compter environ 2 à 4$ par mois pour bénéficier d'une adresse, si vous en prenez plusieurs cela vous coutera moins cher et vous allez voir que pour certains sites il faut une quantité d'IP relativement importante pour aller au bout de votre récolte d'informations.

Proxy résidentiel

Le proxy résidentiel est très similaire au proxy simple, à la différence que vous n'allez pas sortir depuis un serveur dans un datacenter, mais chez un particulier. L'adressage IP étant régulé, il est assez facilement de savoir si votre IP vient d'un datacenter, d'une machine qui visiblement n'est pas un humain ou d'une personne qui passe par une box internet classique.

Il y a plus de chance de se faire détecter en passant par une solution serveur que par un particulier qui va lever moins de soupçons sur le fait que ça soit un bot.

Proxy rotatif

Jusqu'à maintenant nous avons abordé les proxys qui sortent sur une seule IP, avec le proxy rotatif il est possible d'aller plus loin en utilisant une solution de proxies rotatif. Le concept est simple, vous vous connectez toujours au même serveur proxy, mais celui est dynamique et permet de sortir sur plusieurs adresses IP différentes.

Cela permet de ne pas vous souciez du fait qu'une IP est encore valable ou non pour scraper le site que vous souhaitez.

Choisir une solution de proxy adaptée pour scraper

En fonction de votre besoin, vous allez travailler avec telle ou telle solution pour réussir à aller jusqu'au bout de votre récupération de data, la cible est également déterminante, car sur des acteurs comme Le bon coin ou Linkedin, il faut passer par différentes solutions en fonction du besoin.

Il faut pour cela aller plus loin avec des proxys qui viennent simuler un rendu JavaScript, pour aller encore plus simuler la visite d'un utilisateur avec un navigateur comme Firefox ou Chrome.