爬虫ip遭遇封禁该怎么办

日期: 2020-06-20 13:42

  爬取返回的数据是无法显示,或者是直接空白的,这就意味着你的爬虫程序可能出了故障。很大的原因是因为IP的限制,这个时候,就需要用上代理IP来解决。
 
 
  代理IP又称代理服务器(Proxy Server)。是一种重要的安全功能,能起到防火墙的作用。
 
  形象的讲,代理服务器是网络信息的中转站,它是介于浏览器和Web服务器之间的一台服务器,有了它之后,Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。在日常生活中,我们使用IP代理,大多数是用来连接INTERNET(国际互联网)和INTRANET(局域网)。
 
  可以怎么解除网站对IP的爬取限制?
 
  方式一、减慢爬取速率,那样目标网站的压力就会相对性减小,可是这么做的话,单位时间之内的爬取量就会相对的减少。
 
  方式二、用ip代理设置代理IP,攻克反爬虫体制进行高频率抓取,这样就需要多个稳定的代理IP。普通的基于ADSL拨号的解决方案。通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,同时也危害到了其他网站的抓取,总体来说也会降低获取速度。
 
  方式三、另一个一种可能的解决方案,同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的代理服务器,抓取过程中使用这两台服务器作为代理。假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的状况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。
 
  上面介绍的三种方式,大家可以用于解除网站对IP的访问频率限制。

相关新闻