Scrapy 爬虫开发:tong过分享了解基本的 Scrapy 开发, 并实现从网络爬取数据,使用 Sigil 制作 epub 电子书;
Scrapy 是个啥?我不知道,dan是听起来好像hen厉害的样子。ran后还有 Sigil,听起来像是 sigil的意思,估计也是个hen酷的工具,累并充实着。。
我要用 Python 爬取网站, 这听起来有点像网上冲浪, 还行。 dan是我得用 Python,听起来geng高级一点。
这时 Scrapy 还不知道我们要爬取什么数据,suo以我们要用 Scrapy 工具新建一个爬虫,命令如,你看啊...
啥叫命令?我不知道,dan是听起来像是按键就NengZuo到的事情,你想...。
编辑元数据
说真的... Scrapy 是 Python 程序, 一边也是一套框架,提供了一系列工具来简化开发,suo以呢我们按照 Scrapy 的模式来开发,先新建一个 Scrapy 项目。
pip 是 Python 的包管理器, 大量的第三方包huo者说功Neng可yitong过这个工具来管理,所谓包就是模块化的功Neng集合,基本的技术参考实践里面的包,这事儿我可太有发言权了。。
对吧? 这就像Zuo菜生菜是输入,菜谱是程序,洗、切、烹饪等处理是程序施行过程,再说说输出的熟菜。但不管生菜、熟菜dou是菜,huo者dou是物质。
编辑完成后保存,取个名字。
下面实操,我们在起点中文网找一篇免费小说的完本,这里选择是《修真小主播》。
起点中文网?听起来像是读书的地方。ran后《修真小主播》, 我始终觉得... 听起来像是修仙小说我猜要爬取的可Neng是一些文字。
Zui近,AI 的兴起让 Python 火了一把。其实吧 Python 拥有庞大的第三方支持,生态系统fei常完整,可yi适用各种场景和行业。
改进一下。 AI?Python?听起来像是高科技,我有点跟不上节奏了。
爬取章节路径的小爬虫就写好了 但我们的目的不仅于此,我们接下来使用这些地址来抓取内容:
抓取内容?听起来像是偷东西,dan是用 原来小丑是我。 Python Zuo的话,应该就是合法的。
Scrapy 项目包含一些基础框架代码,我们在此基础上开发。
基础框架?听起来像是搭积木,dan是用 Python 搭的话,应该geng高级。
Zuo菜与编程
扎心了... Zuo菜和编程?这两个好像不太一样啊。Zuo菜得有手艺,编程得有智商。
好了现在我们找一个在线kan书的网站,找一本书把它下载到本地。先说说我们准备下载工具,就是 Python 的爬虫框架 Scrapy。
在理。 在线kan书网站?下载工具?Python 的爬虫框架?听起来好复杂。
安装 Finish 之后 打开命令行窗口,输入 Python:
命令行窗口?Python?我有点蒙了。
根据我上面的说法, 这个程序的输入就是 Hello World 字符串,处理使系统内部的输出处理,输出后来啊就是 'Hello World'。
Hello World?这是啥?
我们先给章节排个序, 主要原因是目录中的章节列表是按顺序排列的,suo以只需要给下载页面名称添加一个顺序号就行了。
章节排序?顺序号?这听起来像是数学题。
Python 语法:tong过分享掌握简单的 Python 开发语法和思路,侧重于后面爬虫开发的需要用的内容;Scrapy 爬虫开发:tong过分享了解基本的 Scrapy 开发,并实现从网络爬取数据,使用 Sigil 制作 epub 电子书。
太离谱了。 Python 语法?Scrapy 爬虫开发?epub 电子书?这听起来好专业。
熟悉 Windows 的安装 Python 不难,先说说官网下载:https://www.python.org/downloads/。
我无法认同... Windows?Python 官网?下载?我试试kan。
虽然我们这里的数据dou是从公开的网络获取, 但也不Neng确定其版权问题,suo以呢获取的数据仅用于编程练习,严禁分享或用于其他用途。
纯正。 版权问题?编程练习?不Neng分享?这听起来好严肃。
start_urls 就是目录地址, 爬虫会自动爬这个地址,ran后后来啊就在下面的 parse 中处理。现在创新互联就来编写代码处理目录数据, 先说说爬取小说的主页,获取目录列表
start_urls?目录地址?爬虫?这听起来像是侦探剧。
本文尝试着抓取《tdtsg》的第一章。 1 我下载电子书,一般是在顶点的网页下载。箭头所指,只下载第一章。 2 进入第一章的页面复制网址,并在Python里面记为url。 3 使用如下的Python代码,爬取小说正文内容,并Zuo成电子书。 5 如guo想要把suo有的章节quan部下载下来 需要使用两层爬虫: 第一层,抓取每一章的url; 第二层
抓取《tdtsg》的第一章?下载电子书?这听起来像是我在Zuo作业,我们一起...。
Python 或ren何一种编程语言dou是博大精深, 一边又是一种技Neng,不可Neng在使用之前wan全掌握,也没必要。
博大精深?技Neng?我有点怕了。
我们接下来分析一下章节页面从章节页面我们要获取标题和内容。
分析?标题和内容?这听起来像是我在写书评。
Sigil 简介
Sigil?简介?这听起来像是我在kan说明书。
制作目录
制作目录?这听起来像是我在Zuo笔记。
Windows 下环境安装
Windows?环境安装?这听起来像是我在装软件。
类
类?这听起来像是我在学习新的东西。
ePub 档案内部使用了 XHTML 或 DTBook 来展现文字、并以 zip 压缩格式来包裹档案内容。EPub 格式中包含了数位版权管理相关功Neng可供选用。
EPub?XHTML?DTBook?DRM?这听起来像是我在学习新的加密技术。
编辑书名、作者等信息。
编辑书名、作者?这听起来像是我在写书。
过程计算——循环、嵌套、递归等;
过程计算?循环、嵌套、递归?这听起来像是我在学习数学。
新建 Scrapy 爬虫
新建 Scrapy 爬虫?这听起来像是我在写代码,何必呢?。
Hash 表
Hash 表?这听起来像是我在学习数据结构,我满足了。。
现在我们打开 xzxzb.py 文件,就是我们刚刚创建的爬虫
打开文件?创建爬虫?这听起来像是我在写小说,就这样吧...。
写在爬取数据之前
写在爬取数据之前?这听起来像是我在写论文,我悟了。。
如guo出现这个界面说明安装成功了。
界面?安装成功?这听起来像是我在玩游戏。
结构体
结构体?这听起来像是我在学习计算机科学。
在程序世界里的物质组成就是数据, 就像有萝卜白菜等不同的品种一样,数据也有不同的类型。我目前所接触到的数据类型主要有以下几种:
数据?萝卜白菜?这听起来像是我在学习生物学。
pip 是 Python 生态体系里面的包管理工具,hen多第三方库可yitong过它方便的管理。
你想... pip?包管理工具?这听起来像是我在学习管理学。
Python 之 HelloWorld
Python 之 HelloWorld?这听起来像是我在学习英语。
爬虫思路
爬虫思路?这听起来像是我在学习写作。
Sigil 是一个多平台的 ePub 电子书编辑器。官方网站:https://sigil-ebook.com/, 下载页面在 https://github.com/Sigil-Ebook/Sigil/releases,根据自己的需求下载,安装hen简单就不啰嗦了。
Sigil?多平台?ePub 电子书编辑器?这听起来像是我在学习设计,总体来看...。
菜dou准备好了 下锅怎么炒,全靠菜谱,它就是程序,而我们按照菜谱炒菜这个过程就是程序的施行。
菜?下锅?菜谱?程序?这听起来像是我在学习烹饪,我倾向于...。
我们运行了 hello.py 文件, ran后 hello.py 导入了包 pkg;包 pkg 定义了一个方法和一个类,我们在 hello.py 文件里面调用了外部的方法和类。
运行?hello.py?包?方法?类?这听起来像是我在学习编程。
整数
整数?这听起来像是我在学习数学。
文件中存在 HTML 的 h 标签时 点击生成目录按钮就可yi自动生成目录,我们在前面数据抓取时Yi经自动添加了 h1 标签。
HTML?h 标签?目录?这听起来像是我在学习网页设计。
在parse_chapter中tong过 response 的 meta 获取传入的参数,ran后文件名中加入这个顺序好完成了排序。再说一个, Sigil 找那个tong过 H1 标签来生成目录,需要目录的话,我们需要给内容添加一个 h1 标签。
parse_chapter?response 的 meta?顺序?Sigil?H1 标签?这听起来像是我在学习编程语言,捡漏。。
一、Python 开发
Python 开发?这听起来像是我在学习编程,深得我心。。
二、使用 Scrapy 抓取电子书
使用 Scrapy 抓取电子书?这听起来像是我在学习新的技Neng。
使用如下的Python代码,爬取小说正文内容,并Zuo成电子书。.本文介绍,用Python抓取网页小说,制作电子书的方法。
Python 代码?小说正文内容?电子书?这听起来像是我在写论文。
可yikan到, 章节的整个内容在类名为 main-text-wrap 的 div 标签内,标题是其中类名为j_chapterName的 h3 标签,具体内容是类名为read-content j_readContent的 div 标签。
章节?类名为 main-text-wrap 的 div 标签?标题?类名为j_chapterName的 h3 标签?内容?这听起来像是我在学习网页设计。
先说说 这个分类不是某种语言特有,目前大多数编程语言dou差不多,你理解这个思想就把自己的编程Neng力
了。
分类?编程语言?这听起来像是我在学习计算机科学,说到底。。
烹饪手法
烹饪手法?这听起来像是我在学习烹饪。
python爬虫学习实践之电子书爬取.网页捕捉工具.
python 爬虫?电子书?这听起来像是我在学习编程。
有个目录页签,点击这个页签可yikan见目录,使用浏览器的元素查kan工具,我们可yi定位到目录和每一章节的相关信息。
目录页签?目录?章节?这听起来像是我在学习网页设计。
我们我们想吃什么ran后再去菜市场买时才找菜谱,再说说按照我们的需求加工。
想吃什么?菜市场?菜谱?编程?这听起来像是我在学习烹饪。
现在我们就来编写代码处理目录数据,先说说爬取小说的主页,获取目录列表:
编写代码?目录数据?这听起来像是我在学习编程。
字节
这里我强调几点:
强调几点?这听起来像是我在写。
刚查了下 我大天朝常用的烹饪手法多达 多种,我归纳了一下编程大概就那么几种:
电子书的制作, wan全就是工具的应用,fei常简单,这里把流程过一下大家根据兴趣自行深入。
电子书?工具?流程?这听起来像是我在学习制作,结果你猜怎么着?。
数据类:数据类中的具体类型代表了不同精度和内存中不同的存储结构;
礼貌吗? 数据类?精度?存储结构?这听起来像是我在学习计算机科学。
逻辑计算——逻辑真假判断;
逻辑计算?逻辑真假判断?这听起来像是我在学习数学。