分类:爬虫项目

scrapy分布式爬虫使用bloomfilter去重

scrapy分布式爬虫使用bloomfilter去重
在上一篇博文中,我们介绍scrapy简单的分布式爬虫是通过scrapy-redis这个模块来实现的。各个服务器上的爬虫访问同一个服务器上的redis,通过redis的set来去重。通过这种方式来去重,有一个问题就是当爬取的网页很多,几百万上千万或者更多的时候,那就非常占用内存了。...

2017-06-14 4427浏览 0评论 14喜欢

scrapy简单分布式爬虫的实现方法

scrapy简单分布式爬虫的实现方法
原理 所有机子连接同一个redis,获取和存放url scrapy和redis通过scrapy-redis连接,直接通过pip install scrapy-redis安装,scrapy-redis的官方文档 http://scrapy-redis.readthedocs.io...

2017-06-12 2255浏览 0评论 1喜欢