GG资源网

用正则表达式获取src里面的内容

问题描述:

现在有一段img标签我可以获取 但是img标签里面有一个data-src和src 我用正则去匹配src 但是获取到的是data-src里面的内容 如何过滤掉获取第二次出现的src内容

网友观点:

简单的做法是,修改一下查找src的正则,在前面加一个\\s,因为标签的属性前面是使用客格作为分隔的,这里必然有一个\\s.
同样的,你data-src也建议加上这个\\s

python爬虫系列(4)- 提取网页数据(正则表达式、bs4、xpath)

记录提取网页数据(正则表达式、bs4、xpath)一些常用方法和使用样板。

python 爬虫 常见流程.jpg

就永恒君使用经验来说,bs4、xpath比较容易上手但是功能有限,正则比较晦涩难懂但是功能超级强大。

简介

正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
re 模块使 Python 语言拥有全部的正则表达式功能。

由于网站搬家,部分链接失效,如无法下载,请联系站长!谢谢支持!
1. 带 [亲测] 说明源码已经被站长亲测过!
2. 下载后的源码请在24小时内删除,仅供学习用途!
3. 分享目的仅供大家学习和交流,请不要用于商业用途!
4. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
5. 本站所有资源来源于站长上传和网络,如有侵权请邮件联系站长!
6. 没带 [亲测] 代表站长时间紧促,站长会保持每天更新 [亲测] 源码 !
7. 盗版ripro用户购买ripro美化无担保,若设置不成功/不生效我们不支持退款!
8. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
9. 如果你也有好源码或者教程,可以到审核区发布,分享有金币奖励和额外收入!
10.如果您购买了某个产品,而我们还没来得及更新,请联系站长或留言催更,谢谢理解 !
GG资源网 » 用正则表达式获取src里面的内容

发表回复

CAPTCHAis initialing...