2017年6月 – 均益个人博客

scrapy分布式爬虫使用bloomfilter去重

在上一篇博文中，我们介绍scrapy简单的分布式爬虫是通过scrapy-redis这个模块来实现的。各个服务器 […]

原理所有机子连接同一个redis,获取和存放url scrapy和redis通过scrapy-redis连接 […]

redis默认是不能远程访问的，如果希望多台机子共用redis数据库，那就需要开启redis远程连接访问。既然 […]

一、安装环境 centos7 64位 MongoDB 3.4版本采用yum安装二、建立一个yum vi / […]

我们在写好scrapy爬虫之后，每次运行都要在控制器里写这一段 scrapy crawl spiders1（爬 […]

BloomFilter布隆过滤器是什么？不知道BloomFilter的朋友，请参考这篇文章海量数据处理算法— […]