月份: 2017-06

scrapy分布式爬虫使用bloomfilter去重

在上一篇博文中,我们介绍scrapy简单的分布式爬虫是通过scrapy-redis这个模块来实现的。各个服务器上的爬虫访问同一个服务器上的redis,通过redis的set来去重。通过这种方式来去重,有一个问题就是当爬取的网页很多,几百万上千万或者更多的时候,那就非常占用内存了。 如果希望减少内存的 […]

scrapy简单分布式爬虫的实现方法

原理 所有机子连接同一个redis,获取和存放url scrapy和redis通过scrapy-redis连接,直接通过pip install scrapy-redis安装,scrapy-redis的官方文档 http://scrapy-redis.readthedocs.io/en/stable/ […]

redis开启远程连接访问和需要密码的方法

redis默认是不能远程访问的,如果希望多台机子共用redis数据库,那就需要开启redis远程连接访问。既然可以远程连接了,那就需要密码登陆,否则不安全。 下面是具体的方法,按照步骤一步一步来就OK了 下面代码的运行环境为 centos 7 redis 3.2.9 一、配置安装目录下的redis. […]

MongoDB在centos下的安装和配置端口密码的方法

一、安装环境 centos7 64位 MongoDB 3.4版本 采用yum安装 二、建立一个yum vi /etc/yum.repos.d/mongodb-org-3.4.repo 写下下面的内容 [mongodb-org-3.4] name=MongoDB Repository […]

scrapy通过脚本运行的简单方法

我们在写好scrapy爬虫之后,每次运行都要在控制器里写这一段 scrapy crawl spiders1(爬虫名字) 很烦人!! 还有我们当我们需要通过运行脚本的方式开启scrapy爬虫,网上给出大多是很复杂的方法,复杂就复杂吧,还不好用。 均益这里给出的这种运行scrapy爬虫的方式,非常简单, […]

BloomFilter布隆过滤器python的实现方法

BloomFilter布隆过滤器是什么? 不知道BloomFilter的朋友,请参考这篇文章海量数据处理算法—Bloom Filter BloomFilter布隆过滤器python的实现方法 安装pybloomfiltermmap模块 pip install pybloomfiltermmap 实现 […]