当前位置：首页 > 网站优化 >

如何用Python爬取网站，轻松制作专属电子书？

GG网络技术分享 2026-01-07 22:40 16

Scrapy 爬虫开发：tong过分享了解基本的 Scrapy 开发，并实现从网络爬取数据，使用 Sigil 制作 epub 电子书;

Scrapy 是个啥？我不知道，dan是听起来好像hen厉害的样子。ran后还有 Sigil，听起来像是 sigil的意思，估计也是个hen酷的工具，累并充实着。。

我要用 Python 爬取网站，这听起来有点像网上冲浪，还行。 dan是我得用 Python，听起来geng高级一点。

这时 Scrapy 还不知道我们要爬取什么数据，suo以我们要用 Scrapy 工具新建一个爬虫，命令如，你看啊...

啥叫命令？我不知道，dan是听起来像是按键就NengZuo到的事情，你想...。

编辑元数据

说真的... Scrapy 是 Python 程序，一边也是一套框架，提供了一系列工具来简化开发，suo以呢我们按照 Scrapy 的模式来开发，先新建一个 Scrapy 项目。

pip 是 Python 的包管理器，大量的第三方包huo者说功Neng可yitong过这个工具来管理，所谓包就是模块化的功Neng集合，基本的技术参考实践里面的包，这事儿我可太有发言权了。。

对吧？这就像Zuo菜生菜是输入，菜谱是程序，洗、切、烹饪等处理是程序施行过程，再说说输出的熟菜。但不管生菜、熟菜dou是菜，huo者dou是物质。

编辑完成后保存，取个名字。

下面实操，我们在起点中文网找一篇免费小说的完本，这里选择是《修真小主播》。

起点中文网？听起来像是读书的地方。ran后《修真小主播》，我始终觉得... 听起来像是修仙小说我猜要爬取的可Neng是一些文字。

Zui近，AI 的兴起让 Python 火了一把。其实吧 Python 拥有庞大的第三方支持，生态系统fei常完整，可yi适用各种场景和行业。

改进一下。 AI？Python？听起来像是高科技，我有点跟不上节奏了。

爬取章节路径的小爬虫就写好了但我们的目的不仅于此，我们接下来使用这些地址来抓取内容：

抓取内容？听起来像是偷东西，dan是用原来小丑是我。 Python Zuo的话，应该就是合法的。

Scrapy 项目包含一些基础框架代码，我们在此基础上开发。

基础框架？听起来像是搭积木，dan是用 Python 搭的话，应该geng高级。

Zuo菜与编程

扎心了... Zuo菜和编程？这两个好像不太一样啊。Zuo菜得有手艺，编程得有智商。

好了现在我们找一个在线kan书的网站，找一本书把它下载到本地。先说说我们准备下载工具，就是 Python 的爬虫框架 Scrapy。

在理。在线kan书网站？下载工具？Python 的爬虫框架？听起来好复杂。

安装 Finish 之后打开命令行窗口，输入 Python：

命令行窗口？Python？我有点蒙了。

根据我上面的说法，这个程序的输入就是 Hello World 字符串，处理使系统内部的输出处理，输出后来啊就是 'Hello World'。

Hello World？这是啥？

我们先给章节排个序，主要原因是目录中的章节列表是按顺序排列的，suo以只需要给下载页面名称添加一个顺序号就行了。

章节排序？顺序号？这听起来像是数学题。

Python 语法:tong过分享掌握简单的 Python 开发语法和思路,侧重于后面爬虫开发的需要用的内容;Scrapy 爬虫开发:tong过分享了解基本的 Scrapy 开发,并实现从网络爬取数据,使用 Sigil 制作 epub 电子书。

太离谱了。 Python 语法？Scrapy 爬虫开发？epub 电子书？这听起来好专业。

熟悉 Windows 的安装 Python 不难,先说说官网下载:https://www.python.org/downloads/。

我无法认同... Windows？Python 官网？下载？我试试kan。

虽然我们这里的数据dou是从公开的网络获取，但也不Neng确定其版权问题，suo以呢获取的数据仅用于编程练习，严禁分享或用于其他用途。

纯正。版权问题？编程练习？不Neng分享？这听起来好严肃。

start_urls 就是目录地址，爬虫会自动爬这个地址，ran后后来啊就在下面的 parse 中处理。现在创新互联就来编写代码处理目录数据，先说说爬取小说的主页，获取目录列表

start_urls？目录地址？爬虫？这听起来像是侦探剧。

本文尝试着抓取《tdtsg》的第一章。 1 我下载电子书，一般是在顶点的网页下载。箭头所指，只下载第一章。 2 进入第一章的页面复制网址，并在Python里面记为url。 3 使用如下的Python代码，爬取小说正文内容，并Zuo成电子书。 5 如guo想要把suo有的章节quan部下载下来需要使用两层爬虫：第一层，抓取每一章的url；第二层

抓取《tdtsg》的第一章？下载电子书？这听起来像是我在Zuo作业，我们一起...。

Python 或ren何一种编程语言dou是博大精深，一边又是一种技Neng，不可Neng在使用之前wan全掌握，也没必要。

博大精深？技Neng？我有点怕了。

我们接下来分析一下章节页面从章节页面我们要获取标题和内容。

分析？标题和内容？这听起来像是我在写书评。

Sigil 简介

Sigil？简介？这听起来像是我在kan说明书。

制作目录

制作目录？这听起来像是我在Zuo笔记。

Windows 下环境安装

Windows？环境安装？这听起来像是我在装软件。

类

类？这听起来像是我在学习新的东西。

ePub 档案内部使用了 XHTML 或 DTBook 来展现文字、并以 zip 压缩格式来包裹档案内容。EPub 格式中包含了数位版权管理相关功Neng可供选用。

EPub？XHTML？DTBook？DRM？这听起来像是我在学习新的加密技术。

编辑书名、作者等信息。

编辑书名、作者？这听起来像是我在写书。

过程计算——循环、嵌套、递归等;

过程计算？循环、嵌套、递归？这听起来像是我在学习数学。

新建 Scrapy 爬虫

新建 Scrapy 爬虫？这听起来像是我在写代码，何必呢？。

Hash 表

Hash 表？这听起来像是我在学习数据结构，我满足了。。

现在我们打开 xzxzb.py 文件，就是我们刚刚创建的爬虫

打开文件？创建爬虫？这听起来像是我在写小说，就这样吧...。

写在爬取数据之前

写在爬取数据之前？这听起来像是我在写论文，我悟了。。

如guo出现这个界面说明安装成功了。

界面？安装成功？这听起来像是我在玩游戏。

结构体

结构体？这听起来像是我在学习计算机科学。

在程序世界里的物质组成就是数据，就像有萝卜白菜等不同的品种一样，数据也有不同的类型。我目前所接触到的数据类型主要有以下几种：

数据？萝卜白菜？这听起来像是我在学习生物学。

pip 是 Python 生态体系里面的包管理工具，hen多第三方库可yitong过它方便的管理。

你想... pip？包管理工具？这听起来像是我在学习管理学。

Python 之 HelloWorld

Python 之 HelloWorld？这听起来像是我在学习英语。

爬虫思路

爬虫思路？这听起来像是我在学习写作。

Sigil 是一个多平台的 ePub 电子书编辑器。官方网站：https://sigil-ebook.com/，下载页面在 https://github.com/Sigil-Ebook/Sigil/releases，根据自己的需求下载，安装hen简单就不啰嗦了。

Sigil？多平台？ePub 电子书编辑器？这听起来像是我在学习设计，总体来看...。

菜dou准备好了下锅怎么炒，全靠菜谱，它就是程序，而我们按照菜谱炒菜这个过程就是程序的施行。

菜？下锅？菜谱？程序？这听起来像是我在学习烹饪，我倾向于...。

我们运行了 hello.py 文件， ran后 hello.py 导入了包 pkg;包 pkg 定义了一个方法和一个类，我们在 hello.py 文件里面调用了外部的方法和类。

运行？hello.py？包？方法？类？这听起来像是我在学习编程。

整数

整数？这听起来像是我在学习数学。

文件中存在 HTML 的 h 标签时点击生成目录按钮就可yi自动生成目录，我们在前面数据抓取时Yi经自动添加了 h1 标签。

HTML？h 标签？目录？这听起来像是我在学习网页设计。

在parse_chapter中tong过 response 的 meta 获取传入的参数，ran后文件名中加入这个顺序好完成了排序。再说一个， Sigil 找那个tong过 H1 标签来生成目录，需要目录的话，我们需要给内容添加一个 h1 标签。

parse_chapter？response 的 meta？顺序？Sigil？H1 标签？这听起来像是我在学习编程语言，捡漏。。

一、Python 开发

Python 开发？这听起来像是我在学习编程，深得我心。。

二、使用 Scrapy 抓取电子书

使用 Scrapy 抓取电子书？这听起来像是我在学习新的技Neng。

使用如下的Python代码,爬取小说正文内容,并Zuo成电子书。.本文介绍,用Python抓取网页小说,制作电子书的方法。

Python 代码？小说正文内容？电子书？这听起来像是我在写论文。

可yikan到，章节的整个内容在类名为 main-text-wrap 的 div 标签内，标题是其中类名为j_chapterName的 h3 标签，具体内容是类名为read-content j_readContent的 div 标签。

章节？类名为 main-text-wrap 的 div 标签？标题？类名为j_chapterName的 h3 标签？内容？这听起来像是我在学习网页设计。

先说说这个分类不是某种语言特有，目前大多数编程语言dou差不多，你理解这个思想就把自己的编程Neng力了。

分类？编程语言？这听起来像是我在学习计算机科学，说到底。。

烹饪手法

烹饪手法？这听起来像是我在学习烹饪。

python爬虫学习实践之电子书爬取.网页捕捉工具.

python 爬虫？电子书？这听起来像是我在学习编程。

有个目录页签,点击这个页签可yikan见目录,使用浏览器的元素查kan工具,我们可yi定位到目录和每一章节的相关信息。

目录页签？目录？章节？这听起来像是我在学习网页设计。

我们我们想吃什么ran后再去菜市场买时才找菜谱，再说说按照我们的需求加工。

想吃什么？菜市场？菜谱？编程？这听起来像是我在学习烹饪。

现在我们就来编写代码处理目录数据,先说说爬取小说的主页,获取目录列表:

编写代码？目录数据？这听起来像是我在学习编程。

字节

这里我强调几点：

强调几点？这听起来像是我在写。

刚查了下我大天朝常用的烹饪手法多达多种，我归纳了一下编程大概就那么几种：

电子书的制作， wan全就是工具的应用，fei常简单，这里把流程过一下大家根据兴趣自行深入。

电子书？工具？流程？这听起来像是我在学习制作，结果你猜怎么着？。

数据类：数据类中的具体类型代表了不同精度和内存中不同的存储结构;

礼貌吗？数据类？精度？存储结构？这听起来像是我在学习计算机科学。

逻辑计算——逻辑真假判断;

逻辑计算？逻辑真假判断？这听起来像是我在学习数学。

标签： 用 Python 爬取网站制作电子书

网站优化