python3 mysql模块mysql-connector-python使用方法

python3 连接mysql的模块mysql-connector-python,纯python驱动器,不再依赖C语言的库,并且兼容python2和python3. 说明 本文的代码允许环境 python3.6 安装 pip install mysql-connector-python 连接数据库 […]

aiohttp的使用方法

aiohttp是python3的一个异步模块,分为服务器端和客户端。廖雪峰的python3教程中,讲的是服务器端的使用方法。均益这里主要讲的是客户端的方法,用来写爬虫。使用异步协程的方式写爬虫,能提高程序的运行效率。 1、安装 pip install aiohttp 2、单一请求方法 import […]

Pycurl 的属性和方法

Pycurl包是一个libcurl的Python接口,由C语言编写的,功能强大,速度快。由于pycurl的属性和方法太多了,写这篇博文记录一下pycurl的属性和方法。 正常安装 pip install pycurl 如果出现问题,可以按照系统版本搜索安装方法,比如centos7.1 安装pycur […]

python打包生成exe程序软件

如果我们需要将写好的python程序分享给他人使用,而对方电脑上没有python环境,并且对方还是个小白。这种情况下,我们丢几个py文件过去,对方肯定懵逼。 在Windows系统下,我们可以将python程序生成exe文件,这样对方不用安装python环境,直接打开exe文件就可以使用我们的程序。是 […]

python实现pdf文件转为图片(中文也可以转换)

需要用到模块wand,这是Imagemagick的Python接口。我们需要用它来将pdf转换为图片 安装方法 pip install wand 实现的方法在下面代码中,仔细看里面注释   #coding:utf-8 from wand.image import Image   […]

python模拟文件上传(multipart/form-data形式)

我们通过抓包工具,抓到上传文件的时候下面的post传输的数据,就是浏览器控制器中显示的Request Payload ——WebKitFormBoundarynZb9BK3DBujba6Z2 Content-Disposition: form-data; name="__VIEWS […]

scrapy通过脚本运行的简单方法

我们在写好scrapy爬虫之后,每次运行都要在控制器里写这一段 scrapy crawl spiders1(爬虫名字) 很烦人!! 还有我们当我们需要通过运行脚本的方式开启scrapy爬虫,网上给出大多是很复杂的方法,复杂就复杂吧,还不好用。 均益这里给出的这种运行scrapy爬虫的方式,非常简单, […]

BloomFilter布隆过滤器python的实现方法

BloomFilter布隆过滤器是什么? 不知道BloomFilter的朋友,请参考这篇文章海量数据处理算法—Bloom Filter BloomFilter布隆过滤器python的实现方法 安装pybloomfiltermmap模块 pip install pybloomfiltermmap 实现 […]

BloomFilter与redis联合去重的python的代码

我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis的set,那就需要占用很大的内存。如果存入将url存入数据库去重,那速度又会变慢。这种量级以上的去重,一般是采用BloomFilter,但是如果机器down机了,那BloomFilter在内 […]

selenium 修改phantomjs user-Agent请求头和禁止加载图片的方法

phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用。 但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了,鬼都知道用这个浏览器,都是来爬取网页的 […]