首页 > 新闻中心 > 行业新闻

爬虫可以抓取什么数据

日期： 2020-06-20 13:38

　　所谓爬虫，就是一种能够获取网页并且提取保存信息的程序，这种程序的好处就在于它能够实现自动化，我们可以从机械操作中解放。

　　我们可以把互联网比作一张大网，而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。

　　使用代理IP爬虫可以抓取什么样的数据?

　　在网页中我们能看到各种各样的信息，最常见的便是常规网页，它们对应着HTML代码，而最常抓取的便是HTML源代码。

　　另外，可能有些网页返回的不是HTML代码，而是一个JSON字符串(其中API接口大多采用这样的形式)，这种格式的数据方便传输和解析，它们同样可以抓取，而且数据提取更加方便。

　　此外，我们还可以看到各种二进制数据，如图片、视频和音频等。利用爬虫，我们可以将这些二进制数据抓取下来，然后保存成对应的文件名。

　　另外，还可以看到各种扩展名的文件，如CSS、JavaScript和配置文件等，这些其实也是最普通的文件，只要在浏览器里面可以访问到，就可以将其抓取下来。

　　上述内容其实都对应各自的URL，是基于HTTP或HTTPS协议的，只要是这种数据，爬虫都可以抓取。

　　以上就是爬虫的部分介绍，大家可以通过它来开展大数据的工作。

上一篇：爬虫代理IP跟普通IP的区别下一篇：爬虫ip遭遇封禁该怎么办