Requests使用socks5代理爬取网页

前面谋篇文章写了关于shadowsocks的配置,目的就是为了使用google搜索,shadowsocks使用的是socks5,我们可以直接拿来为采集程序所用。

requests中使用socks5代理很简单,要求requests版本高于2.10,并且安装有pysocks这个模块。可以通过 pip list | grep requests 查看到当前requests的版本,我的requests版本为2.12,下面是使用requests+shadowsocks访问google的一个demo:

import requests

proxies = {
            'http': 'socks5://127.0.0.1:1080',
            'https': 'socks5://127.0.0.1:1080'
          }

r = requests.get('https://www.google.com', proxies=proxies)
print(r.text)

就这么简单