承接业务:仿站,建站,网站seo优化顾问……,请联系qq: 1470504292
  • 一个新手如何从零开始学习seo网站优化
爬虫项目

scrapy分布式爬虫使用bloomfilter去重

scrapy分布式爬虫使用bloomfilter去重
在上一篇博文中,我们介绍scrapy简单的分布式爬虫是通过scrapy-redis这个模块来实现的。各个服务器上的爬虫访问同一个服务器上的redis,通过redis的set来去重。通过这种方式来去重,有一个问题就是当爬取的网页很多,几百万上千万或者更多的时候,那就非常占用内存了。...

2017-06-14 210浏览 0评论 2喜欢

其他

redis开启远程连接访问和需要密码的方法

redis开启远程连接访问和需要密码的方法
redis默认是不能远程访问的,如果希望多台机子共用redis数据库,那就需要开启redis远程连接访问。既然可以远程连接了,那就需要密码登陆,否则不安全。 下面是具体的方法,按照步骤一步一步来就OK了 下面代码的运行环境为 centos 7 redis 3.2.9 一、配置...

2017-06-12 138浏览 0评论 0喜欢

python

scrapy通过脚本运行的简单方法

scrapy通过脚本运行的简单方法
我们在写好scrapy爬虫之后,每次运行都要在控制器里写这一段 scrapy crawl spiders1(爬虫名字) 很烦人!! 还有我们当我们需要通过运行脚本的方式开启scrapy爬虫,网上给出大多是很复杂的方法,复杂就复杂吧,还不好用。 均益这里给出的这种运行scr...

2017-06-06 214浏览 0评论 2喜欢

python

BloomFilter与redis联合去重的python的代码

BloomFilter与redis联合去重的python的代码
我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis的set,那就需要占用很大的内存。如果存入将url存入数据库去重,那速度又会变慢。这种量级以上的去重,一般是采用BloomFilter,但是如果机器down机了,那Blo...

2017-05-31 231浏览 0评论 1喜欢

python

python 常用日期和时间格式化操作

python 常用日期和时间格式化操作
均益总结整理一下python获取当前时间的方法,包括获取时间戳和格式化的时间,大家如果还需要其他python操作时间的方法,可以在评论里留言,均益继续更新上去。 python 获取当前的时间戳(1970年后经过的浮点秒数) import time print time.time...

2017-04-13 266浏览 0评论 1喜欢

linux

wdcp v3 apache 安装阿里云SSL证书详细教程

wdcp v3 apache 安装阿里云SSL证书详细教程
本文应用场景 1、wdcp v3版本 2、apache引擎,不是nginx 3、阿里云的SSL证书,不是别的 4、这是本文的应用场景,如果不符合上面的条件,不保证能安装成功,整个过程仅供参考学习 阿里云SSL证书申请流程 1、在阿里云搜索证书服务,找到购买页面。均益这里提供链接,...

2017-04-07 551浏览 0评论 8喜欢