scrapy分布式爬虫使用bloomfilter去重

在上一篇博文中,我们介绍scrapy简单的分布式爬虫是通过scrapy-redis这个模块来实现的。各个服务器上的爬虫访问同一个服务器上的redis,通过redis的set来去重。通过这种方式来去重,有一个问题就是当爬取的网页很多,几百万上千万或者更多的时候,那就非常占用内存了。 如果希望减少内存的 […]

scrapy简单分布式爬虫的实现方法

原理 所有机子连接同一个redis,获取和存放url scrapy和redis通过scrapy-redis连接,直接通过pip install scrapy-redis安装,scrapy-redis的官方文档 http://scrapy-redis.readthedocs.io/en/stable/ […]