怎么合理控制爬虫速度-白红宇

怎么合理控制爬虫速度

阅读量：6851 次

发布时间：2019-06-26

本文共 454 字，大约阅读时间需要 1 分钟。

爬虫的工作人员都知道，爬虫的速度并不是越快越好。如果爬虫采集的速度越快，就越容易被发现，也就越容易被封IP。那么，怎么合理控制爬虫速度呢？

一般情况，可以对每个页面抓取之间的延迟设置为最大来控制频率，这样不会给服务器造成负担，也不会因访问频繁被封。但这种方法会导致抓取的速度较慢，如果有大量抓取任务，会严重影响效率。

有一种自然的解决方法就是等待时间动态变化，最小的时间间隔减去网页读取的时间，这样无论在网络流畅还是网络较差的时候，网页都是最小的时间间隔。但这种方法只适合单线程的爬虫小规模网站。

还有一种方法就是PID控制算法，不用通过计算的方法就可以控制爬虫的速度，简单说就是当爬虫速度过快的时候，就会增加延时的时间。当速度过慢的时候，也会自动减小延时的时间。

以上是控制爬虫速度的简单介绍，不能快速采集，可以用代理IP来提高效率，更换不同IP，持续采集。闪云代理就是爬虫的好帮手，IP稳定在线，操作简单，价格合理。

转载于:https://blog.51cto.com/14338698/2404709

你可能感兴趣的文章