博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
怎么合理控制爬虫速度
阅读量:6851 次
发布时间:2019-06-26

本文共 454 字,大约阅读时间需要 1 分钟。

爬虫的工作人员都知道,爬虫的速度并不是越快越好。如果爬虫采集的速度越快,就越容易被发现,也就越容易被封IP。那么,怎么合理控制爬虫速度呢?

一般情况,可以对每个页面抓取之间的延迟设置为最大来控制频率,这样不会给服务器造成负担,也不会因访问频繁被封。但这种方法会导致抓取的速度较慢,如果有大量抓取任务,会严重影响效率。
有一种自然的解决方法就是等待时间动态变化,最小的时间间隔减去网页读取的时间,这样无论在网络流畅还是网络较差的时候,网页都是最小的时间间隔。但这种方法只适合单线程的爬虫小规模网站。
还有一种方法就是PID控制算法,不用通过计算的方法就可以控制爬虫的速度,简单说就是当爬虫速度过快的时候,就会增加延时的时间。当速度过慢的时候,也会自动减小延时的时间。
以上是控制爬虫速度的简单介绍,不能快速采集,可以用代理IP来提高效率,更换不同IP,持续采集。闪云代理就是爬虫的好帮手,IP稳定在线,操作简单,价格合理。

转载于:https://blog.51cto.com/14338698/2404709

你可能感兴趣的文章
拥抱了IDEA却发现再也回不去Eclipse...
查看>>
【Spring实战】—— 6 内部Bean
查看>>
深度学习中常见的几个基础概念
查看>>
x86 和 ARM 谁能主宰服务器市场?Linux 之父和 Redis 之父有分歧了
查看>>
SAP MRP 平衡在MM模块采购流程中的体现
查看>>
SAP Scriptform 开发2
查看>>
开源Math.NET基础数学类库使用(07)一些常用的数学物理常数
查看>>
grep
查看>>
如何应付表数据过大的查询问题?(如何尽量避免大表关联)
查看>>
如何在最段的时间内让搜索引擎收录一个新网站?
查看>>
基于KMP与Levenshtein模糊匹配算法的银行联行号查询(转)
查看>>
使用JMX实现的内存监控(转)
查看>>
java.net.SocketTimeoutException: Read timed out
查看>>
thinkphp3.2入口文件
查看>>
全息投影技术及其实现(附素材下载)
查看>>
RFID技术助力实时精准监控城市交通数据
查看>>
《算法设计与分析》一一2.4 习题
查看>>
早餐吃不好,容易伤大脑
查看>>
“域名新规”加强解析管理缘何会招致“误读”?
查看>>
提高数据中心效率需要透明管理
查看>>