对于网络爬虫而言,爬虫者以及被爬虫的网站都对这个技术有着不一样的态度。网站自然不希望自己的网站每天有大量的爬虫来占据服务器带宽,而爬虫工作者又必须通过爬虫才能够把那么多的数据抓取下来。
在实际采集过程中,爬虫ip被封是很常见的一个问题,原因其实很简单,我们在用爬虫抓取数据的过程中会遇到很多来自服务器的限制,很多服务器都有防爬机制,比如说我们想抓取豆瓣网的书评、影评之类的,我们经常会遇到的情况就是403 forbidden,然后我们就没有办法继续抓取数据。这时候我们可以通过使用代理服务器,降低爬取速度,建议采用每秒请求sleep2秒来解决。
有些时候,我们遇到了爬虫阻碍,那么就要停下来看看到底是什么情况。或许有可能是以下原因引起的:
1、查验正常情况下浏览器递交的主要参数,在打算向平台网站表单提交或是传出post请求前,要记得检查网页页面內容能否每个数据类型己经填完,文件格式能否准确。
2、查验JavaScript,一般体现为抓取网页页面信息空白,缺少信息,或是抓取到的信息与你在电脑浏览器上看到的內容差异。
不管是哪一种情况,找对了错误根源,大家才有办法来解决。如果是ip问题,那么就使用代理ip,而如果是爬取频次太快,那么就要对抓取频率进行降低。