python 常用日期和时间格式化操作

均益总结整理一下python获取当前时间的方法,包括获取时间戳和格式化的时间,大家如果还需要其他python操作时间的方法,可以在评论里留言,均益继续更新上去。 python 获取当前的时间戳(1970年后经过的浮点秒数) import time print time.time() […]

python selenium启动不了火狐浏览器(firefox)的解决办法

selenium3.0之前的版本,是可以直接打开火狐浏览器的,但3.0之后的版本的就不支持了。需要我们单独装上驱动。 [php]pip show selenium[/php] 查看一下你的selenium版本,如果是3.0以上的,说明需要安装驱动了。那么问题来了,怎么安装驱动呢? 1、首先下载最新版 […]

python xpath 解析网页常用方法总结

python xpath解析网页用到的是lxml库,lxml的使用方法可以官方文档 http://lxml.de/lxmlhtml.html xpath 的定位查找,可以查看 http://www.runoob.com/xpath/xpath-tutorial.html 上面的两个教程说的挺详细的, […]

linux定时执行python脚本的方法以及失败不执行的处理方法

均益最近写了个python脚本,需要每天固定个时间执行一次。在shell窗口下执行是没问题的,但是定时任务的时候老是不执行。如果你也遇到与均益一样的问题,那么可以看一下下面的内容,你肯定可以找到解决方案的。这是均益花不少时间整理出来的。 首页,linux定时任务用到的是crontab,我们来看一下c […]

python使用xmlrpc自动发布文章到wordpress

均益采集文章,一般是用python,而网站程序是wordpress的,本来想直接将文章插入数据库的,但是wordpress的数据表有点麻烦。 所以均益使用python的 wordpress_xmlrpc模块,这个模块的使用方法请看 https://python-wordpress-xmlrpc.re […]

pycurl下载图片的方法代码,直接套用即可

上次均益发了一个最简洁的python下载的图片代码,详情看这篇文章《python 最简洁下载图片的代码》,里面用到的是urllib模块。这个模块是python自带的,在多线程的时候,不是那么好用,容易卡死。 这时我们可以用pycurl这个模块,比urllib好用多了。下面直接贴上代码,根据代码注释修 […]

手机app移动应用数据的采集原理和方法

我们做的SEO,需要到优秀的内容来填充我们的网站,满足搜索引擎对内容的需求。而现在很多优秀的内容在手机APP上,那么问题来了,我们怎么样才能采集到手机app上的数据呢?一般网站的采集,我们可以通过Fiddler抓包工具,监测http数据流,从而分析出要采集的网址。下面均益开始讲解手机app移动应用数 […]

【微信公众号采集】通过搜狗的采集思路以及python实现的代码

我们知道微信公众号的内容比较有价值,原创性的文章比较多,如果能采集微信公众号,那就好了。因此,均益写了一段python代码,用于通过搜狗入口采集公众号的内容。 先说一下思路:通过搜狗搜索微信号,获取到这个微信号的文章列表页(现在只显示前面10篇文章),然后通过列表页获取文章页,并采集文章内容。 如图 […]

Python 正则表达式尽可能小的匹配(遇到第一个结束字符串就停止匹配)

在写爬虫爬网页的时候,经常需要爬取里面的一大块代码,比如: <div>………………………………</div></div></div></div> 我们需要省略号里面的代码块,如果我们用“*”、“+”就会尽可能多的匹配,就会匹配到最后一个&lt […]

python 多线程读取列表(可以设置线程数,平均分配每个线程读取的列表数)

有的时候,我们需要快速的读取python的列表,如果是单线程就有点慢,最好就是开启多线程。但是如果线程数开多了,读取速度不仅没有加快,反而变慢了。所以我们需要控制线程数。还需要根据列表的大小,平均分配每个线程需要执行的列表区间。 根据要求,均益写好了这段代码,大家可自行设置行程数totalThrea […]