У умовах посилення боротьби між веб-скребками та анти-скребковими системами, контроль за ризиками на великих веб-сайтах та додатках стає все більш жорстким, одним із заходів є блокування IP-адрес. Щоб вирішити проблему блокування IP, ефективним способом є налаштування проксі. Після налаштування проксі, веб-скребок може використовувати IP-адресу проксі для маскування своєї реальної IP-адреси, що дозволяє обійти обмеження анти-скребкових систем. Але якість проксі може бути різною, наприклад, безкоштовні проксі на ринку, майже всі з них є недоступними або заблокованими, а деякі платні звичайні проксі також потрапили до чорних списків контролю ризиків на великих веб-сайтах та додатках. Тому зараз залишається все менше проксі, які можна використовувати для збору якісних даних. На сьогоднішній день основними типами високоякісних проксі є ексклюзивні проксі, ADSL проксі, мобільні стільникові проксі. Ця проксі-служба заснована на ADSL і є ротаційною проксі-службою, у цьому документі буде представлено методи подачі заявки та використання цієї служби.Documentation Index
Fetch the complete documentation index at: https://docs.xhuoapi.ai/llms.txt
Use this file to discover all available pages before exploring further.
Вступ до ADSL проксі
ADSL, англійською Asymmetric Digital Subscriber Line, тобто асиметрична цифрова абонентська лінія. ADSL підключається до Інтернету через набір, під час набору потрібно ввести облікові дані ADSL, і кожного разу при наборі змінюється IP-адреса. IP-адреси розподілені по кількох діапазонах, якщо всі IP-адреси доступні, це означає, що їх кількість може досягати десятків мільйонів. Проксі, побудовані на основі ADSL, мають дві переваги в порівнянні зі звичайними проксі, побудованими в дата-центрах: по-перше, лінії в основному належать до мобільних операторів, таких як China Mobile, China Unicom, China Telecom, що ближче до звичайних домашніх інтернет-з’єднань, тому ймовірність блокування IP буде нижчою. По-друге, велика кількість IP-адрес, чим більше IP-адрес, тим менша ймовірність блокування кожної з них. Ця проксі-служба базується на великій ADSL проксі-мережі, яка охоплює китайські лінії, основні лінії походять від VPS-серверів, що використовують набір, з охопленням понад 100 міст Китаю, з вихідними IP-адресами близько 300 тисяч на день. Підтримує запити даних практично з усіх веб-сайтів та додатків на ринку, якість проксі дуже висока, що значно знижує ймовірність контролю ризиків.Метод подачі заявки
Щоб скористатися ADSL службою, спочатку перейдіть на «сторінку заявки» для подачі заявки, перша заявка має 1 безкоштовний кредит, приблизно 17,5 МБ.
Якщо ви ще не увійшли в систему, вас автоматично перенаправлять на сторінку входу, після входу продовжте подавати заявку.
Після подачі заявки ви можете перевірити результати своєї заявки в «консолі», як показано на малюнку:
Натисніть «Credentials», щоб переглянути ім’я користувача та пароль для використання ADSL проксі-служби, розділені двокрапкою, де ім’я користувача складається з 8 символів, а пароль з 32 символів, як показано на малюнку:
Ця ADSL проксі є ротаційною проксі, тому під час використання потрібно лише налаштувати одну фіксовану адресу проксі та порт, адреса проксі та порт - це adsl.proxy.xhuoapi.ai та 30005, це проксі для протоколів HTTP/HTTPS/SOCKS, які можна використовувати для доступу до веб-сайтів протоколів HTTP та HTTPS.
Тестування команд
Отримавши ім’я користувача та пароль проксі, найзручнішим способом є тестування через командний рядок curl, якщо ви ще не встановили, будь ласка, зверніться до https://curl.se/ для установки. Припустимо, що поточні ім’я користувача та пароль проксі - це1f78266a:eff0896726224fa2a99fe82dd1f07562, ми можемо використати наступну команду curl для тестування:
-x, щоб вказати адресу проксі, проксі-протокол за замовчуванням - HTTP/HTTPS, URL запиту - https://ipinfo.io, цей сайт може повернути реальну IP-адресу та регіон, в якому знаходиться IP.
Результат виконання виглядає так:
Інтеграція коду
Нижче наведено приклад налаштування проксі на Python:@, а потім адреса та порт проксі.
Далі ми оголосили змінну proxies, налаштувавши два ключові пари, де ключі - це http та https, а значення - це proxy, що означає, що для веб-сайтів протоколів HTTP та HTTPS запити здійснюються через проксі, визначений змінною proxy.
Потім ми визначили три цикли для тестування проксі, URL запиту - https://ipinfo.io, цей сайт може повернути реальну IP-адресу та регіон, в якому знаходиться IP.
Результат виконання виглядає так:

