在写爬虫爬网页的时候,经常需要爬取里面的一大块代码,比如:
<div>………………………………</div></div></div></div>
我们需要省略号里面的代码块,如果我们用“*”、“+”就会尽可能多的匹配,就会匹配到最后一个</div>。为了实现我们的需求,我们需要尽可能小的匹配,遇到第一个合适的结束字符就返回。
看下面的例子,就会很快明白了
a = ‘d5./;.sdf jk56jfs./jfis54′
b = re.search(r'(.*)f’,a)
print b.group(1)
返回的结果是 “d5./;.sdf jk56jfs./j”
我们为了遇到一个f就返回,而不是最后一个f才返回,只需要在‘*’后加个”?”,如下面的代码
a = ‘d5./;.sdf jk56jfs./jfis54′
b = re.search(r'(.*?)f’,a)
print b.group(1)
返回的结果是 “d5./;.sd”
整形对比
2016年10月19日 at 下午4:38博主这个是爬虫嘛
均益 • Post Author •
2016年10月25日 at 下午12:03这个是正则表达式,在写爬虫的时候,经常需要用到的
助美整形网
2016年10月19日 at 上午9:06做SEO也要会那么多吗?
均益 • Post Author •
2016年10月25日 at 下午12:04现在不会技术的seo不太好搞啊
小易分享网
2016年8月27日 at 上午2:42今天才发现你的博客,连着看了几篇呢 http://www.xevip.cn
铝合金拉手
2016年8月23日 at 下午4:17留个言,就走人,晚上有事
奇虎分享网
2016年8月23日 at 上午9:42不错哦,赞一个,求认识,求回访
均益 • Post Author •
2016年8月23日 at 上午11:02你网站好像访问不了哦
江太公公号网赚引流
2016年8月22日 at 下午6:04python主要的作用就是爬虫?
均益 • Post Author •
2016年8月23日 at 上午11:02python的作用很大的,今年看了一下编程语言排行榜,python已经超越了php了
江太公公号网赚引流
2016年8月23日 at 下午4:29我也看了,python,php跟js连在一起。那他可以做什么,php的功能他都能。可开发独立客户端?
均益 • Post Author •
2016年8月24日 at 上午12:01python一般用于大数据的处理,也用于web开发的,是否可开发独立客户端就不清楚了,有兴趣你可以多了解一下。我用python主要是做爬虫和数据处理的。
江太公公号网赚引流
2016年8月25日 at 下午6:07是打算学python的。我做seo,这些东东都得会些。
均益 • Post Author •
2016年8月25日 at 下午6:37我也是做seo的,后来发现seo不会点技术真的不行啊。做seo的不会技术,总觉的有点残疾。
江太公公号网赚引流
2016年8月30日 at 下午2:27不会技术,实际想想就一文不值。除了思想牛逼也行。