GG资源网

网站爬虫怎么爬取多个网站文章标题列表?(爬虫怎么爬视频)

谢谢邀请,网络爬虫如何处理这个,其实是数据提取的那一步骤,首先我们要清楚知道网页的页面结构,这是根本,因为网页是一个树形结构,是有层次的。不然,我们是很难提取到我们想要的数据,所以,心中要有这样一个概念:网页是结构分层分明的树形文档。

在这里我以搜房网为例:http://esf.nb.fang.com/housing/,这个页面,是一个小区的List页面,我们现在要提取其中的小区名称和URL。

首先,查看页面的结构

点击右键,选择查看选择,得到如下这样一个页面。因为是一个List,所以有很多个小区,这些小区的信息应该是在一个div样式下面的。在这里我们看到这样一行<div class=\\\"houselist\\\">,这个就是我们要找的根div。

解析出我们想要的内容-小区名称、页面URL

我们就可以使用xpath提取页面中的内容,在这里我们就可以这样描述:

selectore_list = response.xpath(\'//div[@class=\\\"houseList\\\"]/*/dl/dd/a[@class=\\\"plotTit\\\"]\')

这样的话是提取的整个页面的列表,我们还需要通过循环把每个小区的标题和页面URL取出来,我们可以这样写:

for li in selector_list: title = li.xpath(\'./@href\').extract()[0] urls = li.xpath(\'./text()\').extract()[0]

这样的话里面的标题和页面url都提取出来的。关于xpath如何使用,可以查询相关的课程学习。

以上就是整个提取过程,我的理解是只要熟悉页面的结构,然后对xpath的掌握,提取标题、爬取页面后的数据提取都是比较简单的一件事,希望对你有帮助。

欢迎大家留言讨论。

#####

可视化采集工具也是可以实现的,对于爬虫小白来说,操作简单易上手,本人用的是ForeSpider操作的如果只是网站文章标题列表的话也是比较容易操作的,你可以一个网站一个网站的爬,当然如果你想同时爬取的话,也是可以实现的,需要再写一个模板,设置一下,就Ok啦,具体操作你可以上前嗅ForeSpider官网上了解一下。

由于网站搬家,部分链接失效,如无法下载,请联系站长!谢谢支持!
1. 带 [亲测] 说明源码已经被站长亲测过!
2. 下载后的源码请在24小时内删除,仅供学习用途!
3. 分享目的仅供大家学习和交流,请不要用于商业用途!
4. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
5. 本站所有资源来源于站长上传和网络,如有侵权请邮件联系站长!
6. 没带 [亲测] 代表站长时间紧促,站长会保持每天更新 [亲测] 源码 !
7. 盗版ripro用户购买ripro美化无担保,若设置不成功/不生效我们不支持退款!
8. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
9. 如果你也有好源码或者教程,可以到审核区发布,分享有金币奖励和额外收入!
10.如果您购买了某个产品,而我们还没来得及更新,请联系站长或留言催更,谢谢理解 !
GG资源网 » 网站爬虫怎么爬取多个网站文章标题列表?(爬虫怎么爬视频)

发表回复

CAPTCHAis initialing...