BloomFilter与redis联合去重的python的代码 Posted on 2017年5月31日2018年7月14日 by 均益 我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis […] Continue Reading
selenium 修改phantomjs user-Agent请求头和禁止加载图片的方法 Posted on 2017年5月17日2018年7月14日 by 均益 phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, […] Continue Reading