月份: 2016-08

【微信公众号采集】通过搜狗的采集思路以及python实现的代码

我们知道微信公众号的内容比较有价值,原创性的文章比较多,如果能采集微信公众号,那就好了。因此,均益写了一段python代码,用于通过搜狗入口采集公众号的内容。 先说一下思路:通过搜狗搜索微信号,获取到这个微信号的文章列表页(现在只显示前面10篇文章),然后通过列表页获取文章页,并采集文章内容。 如图 […]

Python 正则表达式尽可能小的匹配(遇到第一个结束字符串就停止匹配)

在写爬虫爬网页的时候,经常需要爬取里面的一大块代码,比如: <div>………………………………</div></div></div></div> 我们需要省略号里面的代码块,如果我们用“*”、“+”就会尽可能多的匹配,就会匹配到最后一个&lt […]