Hướng Dẫn Dùng Proxy với Python Requests Để Tránh Bị Block

Xuân Kiên 21 tháng 5, 2026 14 phút đọc

Proxy với Python Requests là giải pháp giúp che giấu IP thật, vượt giới hạn truy cập và giảm nguy cơ bị website phát hiện khi scraping hoặc automation. Thay vì gửi toàn bộ request từ một IP duy nhất, proxy cho phép phân tán lưu lượng qua nhiều địa chỉ khác nhau, từ đó hạn chế block và tăng độ ổn định khi thu thập dữ liệu.

Trong các dự án scraping quy mô lớn, chỉ dùng một proxy thường không đủ. Việc kết hợp rotating proxy và Requests Session giúp duy trì kết nối ổn định, retry hiệu quả và truy cập dữ liệu theo nhiều khu vực địa lý khác nhau. Bài viết dưới đây sẽ hướng dẫn cách triển khai Proxy với Python Requests giúp tăng hiệu suất scraping, giảm lỗi rate limit và hạn chế bị website phát hiện.

Hướng Dẫn Dùng Proxy với Python Requests

Tại sao cần dùng Proxy với Python Requests?

Khi gửi request trực tiếp bằng Python Requests, server đích có thể ghi nhận IP gốc và nhanh chóng phát hiện các hành vi automation hoặc scraping bất thường. Việc sử dụng proxy giúp phân tán request qua nhiều IP khác nhau, từ đó giảm nguy cơ bị block, vượt rate limit và hỗ trợ truy cập nội dung bị giới hạn theo khu vực địa lý hiệu quả hơn.
Lợi ích khi dùng python proxy requests trong web scraping bao gồm:

Ẩn IP thật: Bảo vệ danh tính máy chủ scraper, tránh bị blacklist khi scrape các website lớn như Amazon, Google hay LinkedIn.
Vượt rate limit: Mỗi proxy mang một IP khác nhau, giúp phân tán số lượng request và tránh kích hoạt cơ chế giới hạn truy cập (thường từ 30-100 request/phút trên một IP).
Truy cập nội dung theo vùng địa lý: Sử dụng proxy ở quốc gia khác để xem giá sản phẩm, kiểm tra SEO ranking hoặc thu thập dữ liệu thị trường địa phương.
Phân tán traffic: Chia tải request qua hàng trăm IP khác nhau, giả lập hành vi người dùng tự nhiên và giảm thiểu rủi ro bị phát hiện bot. Tham khảo thêm proxy cho web scraping để chọn loại proxy phù hợp với từng kịch bản thu thập dữ liệu.

Cách cấu hình Proxy với Python Requests

Cấu hình proxy với python requests thực hiện qua hai phương pháp chính: thiết lập dictionary proxies truyền trực tiếp vào hàm requests.get() hoặc dùng Environment Variables ở cấp hệ điều hành.
Dưới đây, mỗi phương pháp có cú pháp và trường hợp sử dụng riêng, phù hợp với các kịch bản triển khai khác nhau từ script đơn giản đến hệ thống production phức tạp.

Cách cấu hình Proxy với Python Requests

Cấu hình HTTP và HTTPS proxy bằng proxies dict

Cách phổ biến nhất để dùng python requests proxies là tạo một dictionary chứa key http và https rồi truyền vào tham số proxies của hàm request. Cụ thể, bạn cần định nghĩa rõ proxy URL kèm protocol, port và optional credentials (nếu proxy yêu cầu xác thực).
Code mẫu chuẩn cho cấu hình HTTP và HTTPS proxy:
python
import requests
proxies = {
“http”: “http://10.10.10.10:8000”,
“https”: “http://10.10.10.10:8000”
}
response = requests.get(“https://httpbin.org/ip”, proxies=proxies, timeout=10)
print(response.json())
Để kiểm tra proxy đã hoạt động đúng, bạn truy cập endpoint https://httpbin.org/ip – đây là dịch vụ trả về IP công khai mà server nhận được. Nếu IP trả về là IP của proxy chứ không phải IP máy bạn, cấu hình đã hoạt động chính xác. Ngoài ra, với proxy có authentication, cú pháp URL sẽ là http://username:password@proxy_ip:port. Nếu muốn áp dụng tương tự cho thư viện bất đồng bộ, xem thêm hướng dẫn proxy với httpx để so sánh cách triển khai.

Thiết lập python requests proxy qua Environment Variables

Phương pháp dùng Environment Variables giúp tách credential proxy ra khỏi codebase, từ đó tăng cường bảo mật và dễ dàng quản lý cấu hình giữa các môi trường dev, staging và production.
Các biến môi trường thư viện requests tự động nhận diện gồm:

HTTP_PROXY: URL proxy dùng cho các request HTTP.
HTTPS_PROXY: URL proxy dùng cho các request HTTPS.
NO_PROXY: Danh sách domain không cần đi qua proxy (ví dụ: localhost,127.0.0.1,internal.company.com).

Trên máy Linux/macOS, bạn mở Terminal và gõ:
export HTTP_PROXY=“http://123.45.67.89:8000”
export HTTPS_PROXY=“http://123.45.67.89:8000”
Sau khi cấu hình, mọi lệnh requests.get() hoặc requests.post() trong script sẽ tự động sử dụng proxy mà không cần truyền tham số proxies. Đây là cách triển khai được nhiều developer và DevOps sử dụng để tăng bảo mật, tránh lộ credential khi push code lên Git và quản lý proxy tập trung qua file .env hoặc secret manager..

Cách Dùng Rotating Proxy Để Tránh Bị Block Hoàn Toàn

Sử dụng rotating proxy là phương pháp xoay IP liên tục qua một proxy pool gồm nhiều IP khác nhau, giúp tránh bị block hoàn toàn khi scrape lượng lớn dữ liệu từ một website.
Tuy nhiên, một proxy đơn không đủ vì khi gửi hàng nghìn request từ cùng một IP, server đích sẽ nhanh chóng phát hiện pattern bất thường và chặn IP đó. Vì vậy, triển khai proxy pool kết hợp xoay IP theo thuật toán random hoặc round-robin là giải pháp được các scraper chuyên nghiệp áp dụng. Để có pool IP chất lượng cao phục vụ Python scraping, 9Proxy Xoay cho Python scraping là lựa chọn đáng cân nhắc với pool IP lớn và tốc độ xoay linh hoạt.

Cách dùng Rotating Proxy Để Tránh Bị Block

Xây dựng proxy pool và xoay IP theo từng request

Xây dựng proxy pool bằng list chứa nhiều proxy URL, sau đó dùng random.choice() để chọn ngẫu nhiên một proxy cho mỗi request. Cụ thể, kỹ thuật này khiến website nghĩ rằng có nhiều người dùng khác nhau đang truy cập, đồng thời giảm rất nhiều khả năng bị chặn.
Code mẫu xây dựng proxy pool cơ bản:
python
import requests
import random
import time
proxy_pool = [
“http://user1:pass1@proxy1.com:8000”,
“http://user2:pass2@proxy2.com:8000”,
“http://user3:pass3@proxy3.com:8000”,
]
urls = [“https://example.com/page1”, “https://example.com/page2”]
for url in urls:
proxy = random.choice(proxy_pool)
proxies = {“http”: proxy, “https”: proxy}
try:
response = requests.get(url, proxies=proxies, timeout=10)
print(f”Status: {response.status_code} | Proxy: {proxy}“)
except requests.exceptions.RequestException as e:
print(f”Error with {proxy}: {e}“)
time.sleep(random.uniform(1, 3))
Đặc biệt, kết hợp time.sleep(random.uniform(1, 3)) ngẫu nhiên giữa các request giúp giả lập hành vi người dùng thật – không ai click chuột chính xác mỗi 2 giây một lần. Hơn nữa, độ trễ ngẫu nhiên này đánh lừa được hầu hết các hệ thống phát hiện bot dựa trên timing analysis.

Quản lý kết nối với Requests Session khi dùng proxy

Sử dụng requests.Session() mang lại ba lợi ích chính khi triển khai python request with proxy: tái sử dụng kết nối TCP (TCP connection reuse), tự động giữ cookie giữa các request và giảm overhead khi gửi nhiều request liên tiếp đến cùng một domain.
Code mẫu dùng session với proxy:
python
import requests
session = requests.Session()
session.proxies = {
“http”: “http://10.10.10.10:8000”,
“https”: “http://10.10.10.10:8000”
}
session.headers.update({“User-Agent”: “Mozilla/5.0”})
response1 = session.get(“https://example.com/login”)
response2 = session.get(“https://example.com/dashboard”)
Cụ thể, khi dùng Session, cookie từ response trước được tự động gửi kèm trong request sau, giúp duy trì trạng thái đăng nhập hoặc session ID. Bên cạnh đó, theo benchmark của thư viện requests, việc tái sử dụng TCP connection có thể giảm 30-50% thời gian phản hồi so với việc tạo connection mới cho mỗi request. Nếu dự án của bạn kết hợp thêm browser automation, hãy tham khảo hướng dẫn cấu hình Selenium với proxy để triển khai đồng bộ giữa hai công cụ.

Xử lý lỗi và retry khi proxy chết hoặc bị ban

Xử lý lỗi và retry là bước bắt buộc trong rotating proxy vì proxy có thể chết bất ngờ, timeout hoặc bị ban bởi server đích bất kỳ lúc nào. Vì vậy, code của bạn cần biết cách “bỏ qua proxy chết và thử proxy khác” thay vì dừng hẳn lại.
Các exception cần xử lý khi dùng python proxy requests gồm:

ProxyError: Proxy không phản hồi hoặc từ chối kết nối.
ConnectTimeout: Proxy chậm hoặc đã chết.
ConnectionError: Lỗi mạng tổng quát hoặc proxy không tồn tại.
HTTPError: Server trả về mã lỗi 403 (forbidden), 429 (too many requests).

Dưới đây là đoạn code giúp bạn loại bỏ proxy chết và retry với proxy khác:
python
import requests
from requests.exceptions import ProxyError, ConnectTimeout, ConnectionError
def fetch_with_retry(url, proxy_pool, max_retries=3):
for attempt in range(max_retries):
proxy = random.choice(proxy_pool)
try:
response = requests.get(url, proxies={“http”: proxy, “https”: proxy}, timeout=10)
response.raise_for_status()
return response
except (ProxyError, ConnectTimeout, ConnectionError):
proxy_pool.remove(proxy) # Loại proxy chết khỏi pool
continue
return None
Quan trọng hơn, sau mỗi lần fail, hàm tự động loại proxy chết khỏi pool và retry với proxy khác, đảm bảo quá trình scraping không bị gián đoạt ngay cả khi 30-40% proxy trong pool bị chết.

Xử lý lỗi thường gặp khi dùng Python Proxy Requests

FAQ – Câu hỏi thường gặp về proxy với python requests

Dưới đây là các câu hỏi phổ biến nhất khi triển khai proxy với python requests, được tổng hợp từ thực tế các dự án web scraping và automation, giúp bạn nhanh chóng giải quyết những vướng mắc thường gặp.

Có cần cài thêm thư viện ngoài để dùng proxy với Python Requests không?

Không cần cài thêm thư viện với HTTP và HTTPS proxy vì thư viện requests đã hỗ trợ sẵn ngay khi cài đặt. Chỉ khi dùng SOCKS5 proxy mới cần cài thêm gói requests[socks] qua lệnh pip install requests[socks] để hỗ trợ giao thức SOCKS.

Có cần dùng proxy khi chạy Python Requests không?

Không bắt buộc nếu chỉ gửi ít request và website không giới hạn truy cập. Khi scrape dữ liệu lớn hoặc thường xuyên gặp lỗi 403/429, proxy gần như là yêu cầu bắt buộc để tránh bị chặn.

Nên dùng một proxy cố định hay xoay nhiều proxy khi scrape dữ liệu lớn?

Một proxy cố định chỉ phù hợp với tác vụ nhỏ và tần suất thấp. Với scraping quy mô lớn, rotating proxy giúp giảm nguy cơ bị chặn và duy trì tốc độ crawl ổn định hơn.

Kết Luận

Proxy với Python Requests là giải pháp quan trọng trong web scraping và automation, giúp phân tán request, giảm nguy cơ bị chặn và vượt giới hạn rate limit từ server đích. Từ cấu hình proxy cơ bản đến rotating proxy, Session và retry logic, mỗi kỹ thuật đều góp phần tăng độ ổn định và duy trì khả năng truy cập liên tục khi scraping dữ liệu quy mô lớn.
Để triển khai hiệu quả, cần kết hợp proxy pool phù hợp, cơ chế xoay IP linh hoạt và xử lý retry chặt chẽ khi proxy gặp lỗi hoặc bị chặn. Đồng thời, việc quản lý credential bằng Environment Variables và tận dụng requests.Session() cũng giúp tối ưu hiệu năng và dễ mở rộng cho các dự án production thực tế. Xem thêm các hướng dẫn proxy cho dev và so sánh các gói mua proxy cho Python developer để chọn giải pháp phù hợp nhất với quy mô dự án của bạn.

Xuân Kiên

Xuân Kiên là chuyên gia công nghệ mạng và blogger tại Vieproxy với hơn 8 năm kinh nghiệm trong lĩnh vực proxy, bảo mật và ẩn danh trên Internet. Xuất thân từ vị trí Network Engineer, anh sở hữu nền tảng kỹ thuật vững chắc và chuyên sâu về các giải pháp như HTTP/HTTPS, SOCKS5, Residential và Datacenter Proxy, đồng thời am hiểu web scraping và automation. Thông qua hơn 200 bài viết, Xuân Kiên tập trung chia sẻ kiến thức thực tiễn, dễ hiểu, giúp người dùng sử dụng proxy hiệu quả, an toàn và tối ưu hóa công việc.

53 bài viết Tham gia Th4 2026

Hướng Dẫn Dùng Proxy với Python Requests Để Tránh Bị Block

Tại sao cần dùng Proxy với Python Requests?

Cách cấu hình Proxy với Python Requests

Cấu hình HTTP và HTTPS proxy bằng proxies dict

Thiết lập python requests proxy qua Environment Variables

Cách Dùng Rotating Proxy Để Tránh Bị Block Hoàn Toàn

Xây dựng proxy pool và xoay IP theo từng request

Quản lý kết nối với Requests Session khi dùng proxy

Xử lý lỗi và retry khi proxy chết hoặc bị ban

FAQ – Câu hỏi thường gặp về proxy với python requests

Có cần cài thêm thư viện ngoài để dùng proxy với Python Requests không?

Có cần dùng proxy khi chạy Python Requests không?

Nên dùng một proxy cố định hay xoay nhiều proxy khi scrape dữ liệu lớn?

Kết Luận

Xuân Kiên

Bài viết liên quan

Hướng dẫn cài đặt và sử dụng Oxylabs Proxy Extension cho Chrome

Hướng Dẫn Cài Đặt Squid Proxy Trên Ubuntu, CentOS và Windows

Hướng Dẫn Dùng Proxy Để Tránh Bị Chặn IP Hiệu Quả