redis开启远程连接访问和需要密码的方法

redis默认是不能远程访问的,如果希望多台机子共用redis数据库,那就需要开启redis远程连接访问。既然可以远程连接了,那就需要密码登陆,否则不安全。 下面是具体的方法,按照步骤一步一步来就OK了 下面代码的运行环境为 centos 7 redis 3.2.9 一、配置安装目录下的redis. […]

MongoDB在centos下的安装和配置端口密码的方法

一、安装环境 centos7 64位 MongoDB 3.4版本 采用yum安装 二、建立一个yum vi /etc/yum.repos.d/mongodb-org-3.4.repo 写下下面的内容 [mongodb-org-3.4] name=MongoDB Repository […]

scrapy通过脚本运行的简单方法

我们在写好scrapy爬虫之后,每次运行都要在控制器里写这一段 scrapy crawl spiders1(爬虫名字) 很烦人!! 还有我们当我们需要通过运行脚本的方式开启scrapy爬虫,网上给出大多是很复杂的方法,复杂就复杂吧,还不好用。 均益这里给出的这种运行scrapy爬虫的方式,非常简单, […]

BloomFilter布隆过滤器python的实现方法

BloomFilter布隆过滤器是什么? 不知道BloomFilter的朋友,请参考这篇文章海量数据处理算法—Bloom Filter BloomFilter布隆过滤器python的实现方法 安装pybloomfiltermmap模块 pip install pybloomfiltermmap 实现 […]

BloomFilter与redis联合去重的python的代码

我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis的set,那就需要占用很大的内存。如果存入将url存入数据库去重,那速度又会变慢。这种量级以上的去重,一般是采用BloomFilter,但是如果机器down机了,那BloomFilter在内 […]

selenium 修改phantomjs user-Agent请求头和禁止加载图片的方法

phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用。 但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了,鬼都知道用这个浏览器,都是来爬取网页的 […]

python 常用日期和时间格式化操作

均益总结整理一下python获取当前时间的方法,包括获取时间戳和格式化的时间,大家如果还需要其他python操作时间的方法,可以在评论里留言,均益继续更新上去。 python 获取当前的时间戳(1970年后经过的浮点秒数) import time print time.time() […]

wdcp v3 apache 安装阿里云SSL证书详细教程

本文应用场景 1、wdcp v3版本 2、apache引擎,不是nginx 3、阿里云的SSL证书,不是别的 4、这是本文的应用场景,如果不符合上面的条件,不保证能安装成功,整个过程仅供参考学习 阿里云SSL证书申请流程 1、在阿里云搜索证书服务,找到购买页面。均益这里提供链接,省得大家去找,htt […]

python selenium启动不了火狐浏览器(firefox)的解决办法

selenium3.0之前的版本,是可以直接打开火狐浏览器的,但3.0之后的版本的就不支持了。需要我们单独装上驱动。 [php]pip show selenium[/php] 查看一下你的selenium版本,如果是3.0以上的,说明需要安装驱动了。那么问题来了,怎么安装驱动呢? 1、首先下载最新版 […]

linux后台运行、关闭和查看程序的方法

一、关闭终端后,后台依然运行的程序的方法 nohup python main.py & (其中python main.py就是我们要运行的程序) 用这个命令,关闭终端后,在另一个终端查看运行的方法 ps -aux #a:显示所有程序 u:以用户为主的格式来显示 x:显示所有程序,不以终端机来区分 二 […]