让自己的 python 爬虫假装是浏览器
小帅b主要是想让你知道
在爬取网站的时候
要多的站在对方的角度想问题
其实
这和泡妞差不多
你要多站在妹纸的角度思考
她的兴趣是什么
她喜欢什么
而不是自己感动自己
单方面的疯狂索取
哦..
扯远了
我们回到反爬虫
这次教你怎么伪装自己的 ip 地址
别让对方轻易的就把你给封掉
如何伪装呢
那么
接下来就是
学习 python 的正确姿势
其实
对于 python 来说
使用代理访问很简单
就拿我们经常使用的 requests 库来说
使用代理 ip 如下
定义代理IP
proxie = { 'http' : 'http://xx.xxx.xxx.xxx:xxxx', 'http' : 'http://xxx.xx.xx.xxx:xxx', .... }
使用代理
response = requests.get(url,proxies=proxies)
这样就可以使用你定义的代理地址去访问网站了
我知道你要问了
代理地址哪里来
在网上有很多免费的代理
随便搜就有一堆了
不过你知道的
免费的话很多人都去使用
所以这些代理IP很不稳定
如果你有钱的话
市面上有人就专门提供代理IP的
直接去买就行了
不想花钱呢?
可以搞一个IP代理池
主要就是通过 python 程序去抓取网上大量免费的代理 ip
然后定时的去检测这些 ip 可不可以用
那么下次你要使用代理 ip 的时候
你只需要去自己的 ip 代理池里面拿就行了
道理都懂
但是不想自己弄一个代理池
有没有现成的?
不瞒你说
接着打开项目中的 setting.py
在这里可以配置相关信息
比如 Redis 的地址密码相关
接着在你 clone 下来的文件目录中
安装相关所需的 python 模块
pip3 install -r requirements.txt
接下来开启你的 redis
redis 的默认端口就是 6379
接着就可以运行 run.py 了
代理池开始运行 * Running on http://0.0.0.0:5555/ (Press CTRL+C to quit)开始抓取代理获取器开始执行Crawling http:///1.html正在抓取 http:///1.html抓取成功 http:///1.html 200成功获取到代理 201.69.7.108:9000成功获取到代理 111.67.97.58:36251成功获取到代理 187.32.159.61:51936成功获取到代理 60.13.42.154:9999成功获取到代理 106.14.5.129:80成功获取到代理 222.92.112.66:8080成功获取到代理 125.26.99.84:60493...