分类:python

aiohttp的使用方法

aiohttp的使用方法
aiohttp是python3的一个异步模块,分为服务器端和客户端。廖雪峰的python3教程中,讲的是服务器端的使用方法。均益这里主要讲的是客户端的方法,用来写爬虫。使用异步协程的方式写爬虫,能提高程序的运行效率。 1、安装 pip install aiohttp 2、...

2018-05-29 333浏览 0评论 0喜欢

Pycurl 的属性和方法

Pycurl 的属性和方法
Pycurl包是一个libcurl的Python接口,由C语言编写的,功能强大,速度快。由于pycurl的属性和方法太多了,写这篇博文记录一下pycurl的属性和方法。 正常安装 pip install pycurl 如果出现问题,可以按照系统版本搜索安装方法,比如centos7...

2018-05-22 310浏览 0评论 1喜欢

python打包生成exe程序软件

python打包生成exe程序软件
如果我们需要将写好的python程序分享给他人使用,而对方电脑上没有python环境,并且对方还是个小白。这种情况下,我们丢几个py文件过去,对方肯定懵逼。 在Windows系统下,我们可以将python程序生成exe文件,这样对方不用安装python环境,直接打开exe文件就可...

2017-11-16 1916浏览 2评论 2喜欢

scrapy通过脚本运行的简单方法

scrapy通过脚本运行的简单方法
我们在写好scrapy爬虫之后,每次运行都要在控制器里写这一段 scrapy crawl spiders1(爬虫名字) 很烦人!! 还有我们当我们需要通过运行脚本的方式开启scrapy爬虫,网上给出大多是很复杂的方法,复杂就复杂吧,还不好用。 均益这里给出的这种运行scr...

2017-06-06 1993浏览 0评论 4喜欢

BloomFilter布隆过滤器python的实现方法

BloomFilter布隆过滤器python的实现方法
BloomFilter布隆过滤器是什么? 不知道BloomFilter的朋友,请参考这篇文章海量数据处理算法—Bloom Filter BloomFilter布隆过滤器python的实现方法 安装pybloomfiltermmap模块 pip install pybloomfi...

2017-06-01 3539浏览 0评论 6喜欢

BloomFilter与redis联合去重的python的代码

BloomFilter与redis联合去重的python的代码
我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis的set,那就需要占用很大的内存。如果存入将url存入数据库去重,那速度又会变慢。这种量级以上的去重,一般是采用BloomFilter,但是如果机器down机了,那Blo...

2017-05-31 10360浏览 0评论 2喜欢