很多爬虫工程师在使用爬虫的时候,为了防止IP被网站封禁,基本都会配合
代理IP一同使用,这是为什么呢?
现在很多网站都会设置一定的反爬虫措施,因为爬虫在爬取的过程中,会占用服务器的带宽,为了保证网站可以被正常访问,不会因为爬虫的原因导致瘫痪,所以才会设置反爬虫措施。
由于爬虫在爬取的过程当中,往往会发送大量请求,所以网站的反爬虫措施就会被触发,IP就会被封禁,直接导致爬虫不能继续进行。而用了动态IP代理的爬虫,就不会出现这种情况。何为动态IP,就是会不断变化的IP,每隔一段时间就会切换新的IP。如果IP被封禁了,换个IP就可以继续爬虫了。
无论是Http代理IP,还是Socks5代理IP,都只是协助网络工作的工具而已,我们要在相应的规则之内,合理合法的使用。