python高并发爬虫_高并发爬虫攻击网站

python高并发爬虫_高并发爬虫攻击网站

如何提高爬虫爬取的速度

1.尽可能减少网站访问次数

单次爬虫的主要把时间消耗在网络请求等待响应上面,所以能减少网站访问就减少网站访问,既减少自身的工作量,也减轻网站的压力,还降低被封的风险。 第一步要做的就是流程优化,尽量精简流程,避免在多个页面重复获取。

随后去重,同样是十分重要的手段,一般根据url或者id进行唯一性判别,爬过的就不再继续爬了。

2.分布式爬虫

即便把各种法子都用尽了,单机单位时间内能爬的网页数仍是有限的,面对大量的网页页面队列,可计算的时间仍是很长,这种情况下就必须要用机器换时间了,这就是分布式爬虫。

238 0 2022-12-27 攻击网站