电子书获取、处理、阅读全攻略

TL;DR

这篇文章包括三大部分：电子书的获取、扫描版电子书处理、电子书的阅读.

电子书的获取是本文的主要内容. 首先是正版的获取，一般是在出版社官网购买，这方面国内提供的不如国外多. 如果没有正版获取渠道可以先在 z-lib 上搜索，(如果没有)再在 libgen、鸠摩等网站上搜索. 也可以直接用 Google 搜索「名称 pdf」或者「名称 filetype:pdf」，后者仅检索网页上的 PDF 文件，对非正式出版物有奇效. 如果实在找不到资源，还可以尝试淘宝代扫描、图书馆自助扫描或 DIY 拍照扫描.

如果网上获取的是扫描版电子书，那么通过扫描版电子书处理，可以获得更好的阅读体验. 首先可以用 ScanTailor Advanced 对 PDF 页面进行处理，获得更清晰，体积更小的 PDF. 然后可以用 Adobe Acrobat 等 OCR 软件配合 PdgCntEditor 创建 PDF 目录，实现更高效的页面跳转. 最后可以对全书进行 OCR 识别，获得文字复制，精确批注等功能.

最后是电子书的阅读. 若只需要简单浏览可以选择 Windows 上的 Edge、Chrome 等浏览器或 iPad 上的 Documents by Readdle; 若需要认真阅读并做笔记可以选择全平台的 Zotero、LiquidText 或 iPad 上的 Flexcil、MarginNote 等.

前言

比起纸质书，电子书有很多优点，比如: 成本低，不需要在学期开始时买一堆可能一个学期只看一两次的教材; 储存、携带方便，机械工业出版社的黑皮书动辄 500 页，重量可能比一般笔记本电脑还重，在寝室、图书馆、教室之间带来带去实在折磨人; 做批注、笔记方便，无需担心笔记会破环书籍的美观性，也不需担心笔记的可扩展性，有大量优秀的阅读器/笔记软件可使用.

实际上我从大一下开始就几乎没使用过纸质书，并且所有教材都有电子版. 在这篇文章中，我对电子书的获取、处理、阅读的经验进行了总结.

电子书的获取

正版获取

获取正版电子书的最简单的方法是去各出版社官网直接购买. 正版电子书在质量上能比肩纸质书，甚至超过纸质书——可以无限放大不失真，可以用电子书签快速跳转，可以直接复制文字，可以全文搜索等等.

通常来说，若电子书可以从官方渠道获得，那么它在网络上的传播是难以避免的，所以提供电子书版本的出版社大多数会对电子书进行加密，使用户只能使用他们的软件进行阅读，但这同时也意味着不能使用各种优秀的阅读器/笔记软件，这是作为一个正版用户无法接受的. 在权衡易用性和版权后，国内大部分出版社选择了不提供电子书，而国外大部分出版社选择了提供无版权保护(DRM-free)的电子书.

一个例外是国内图灵社区，它提供很多计算机方面(以及一部分数学)的 DRM-free 电子书.

您购买的电子书仅供您个人使用，未经授权，不得进行传播.

我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权.

——图灵数字版权声明

其他方式获取

所谓的「其他方式获取」，得到的一般是流出的正版电子书或扫描版书籍. 我们可以通过影子图书馆来轻松地获得这些电子书.

Library Genesis

例如著名的 Library Genesis (libgen) 就是一个影子图书馆，大多数英文教材和少数中文教材都可以在上面找到. 除此之外，libgen 还提供学术期刊文章、小说、杂志、漫画等各种电子资源下载.

libgen的域名有很多: libgen.fun、libgen.li (镜像站)、libgen.is (镜像站)等，若无法访问，可以尝试在 Google 上搜索其可用的域名. 由于这个网站的性质，要(流畅地)访问它可能需要比较科学的上网方式.

比如我们搜索「computer networks andrew」，再以年份排序，就可以下载到最新的 Computer Networks 6e by Andrew S. Tanenbaum.

libgen 下载指南

下载电子书时要注意几点:

libgen 不支持模糊搜索，可以不输全但不要输错，特殊符号(如冒号)可以用空格代替;
搜索时带上作者名能精确找到一本书;
一本书的多个地区版本(如 Global Edition)在 libgen 上可能不会标注，这些版本内容上差别不大，但在习题上可能有较大区别.

Z-Library

Z-Library (z-lib) 是另一个影子图书馆，它提供了更好的 UI 界面，更好的搜索体验，并且镜像了 libgen 的图书. 它的域名有: z-lib.org、b-ok.org 等. 同样地，若无法访问，可以尝试在 Google 上搜索其可用的域名. 由于这个网站的性质，要(流畅地)访问它可能需要比较科学的上网方式.

z-lib 和 libgen 的数据库是独立运行的，z-lib 镜像了 libgen 的图书，所以有 libgen 上的所有内容，但由于同步速度，可能没有 libgen 上最新上传的图书.

另一方面，用户在 z-lib 上上传的图书不会出现在 libgen 中，所以 z-lib 的内容要比 libgen 更全，特别是中文资源. 所以在找书(特别是中文书)时，优先在 z-lib 上搜索比较好.

但 z-lib 也有缺点: 免费用户每日只有 10 下载量(访客只有 5 下载量/天)，且速度被限制在 1MiB/s 以内.

Google

如果以上网站都找不到，还可以通过 Google 直接搜索「名称 pdf」的方式下载. 你也可以添加关键词「filetype:pdf」精确查询 pdf 文件，而不是网页.

其他网站

上述的三个方法可以解决 99% 的问题，下面列出一些其他网站，用来下载一些特定的资源或实在找不到资源时的最后方案.

网站	类型	备注
鸠摩搜书	通用	网盘聚合搜索
全国图书馆参考咨询联盟	通用	各图书馆自扫，收费，淘宝店找书的书源
校内图书馆	通用	各学校购买的电子资源
Textcnx	英文教材	免费教材
书格	中文古籍	网站相当好看
知轩藏书	中文小说	txt 精校小说

终极方案

如果你要找的书是新出 1、2 年的书，或者是非正式出版物，或者就是找不到资源，那还有一个终极方案——自己扫描.

最方便的是淘宝代扫描，只需要你买好书直接寄给代扫商家，付款，商家就会把书切开扫描，然后重新胶装后寄给你. 淘宝扫描的效果非常好，但缺点是贵(约 0.1 元/页).

其次是图书馆自助扫描，有些学校图书馆提供该服务. 比如，在打印店购买的往年习题可以拆了钉子拿去扫描，这样就能分享出来或是在平板上写题.

最后是 DIY 拍照扫描，比如可以用手机上的全能扫描王、白描、Office Lens 等软件，或者拍照后在电脑上使用 ScanTailor Advanced 等软件. 这些扫描方法超出了本文的讨论范围，具体可以参考网上相关资料.

扫描版电子书处理

前面说过，网上的电子书资源可以大致分为正版电子书和扫描版书籍，如果你获取的是扫描版书籍，那么我们需要进行一些处理才能让它和正版电子书一样好用.

PDF 增强与压缩

有些 PDF 图像质量一般，存在颜色淡、杂色多、不清晰等问题.

处理前的 PDF 页面

如果你需要获得最佳的阅读体验，那就需要进行额外的图像处理.

一般流程为:

使用 PDF 补丁丁导出所有图像，同时导出电子目录信息(若有)
用 ScanTailor Advanced (推荐) 或 Photoshop 批处理或 Python 来处理图像
用 PDF 补丁丁把图像重新合并为 PDF

处理后的 PDF 页面

处理后不仅图像更清晰了，而且文件也会减小很多.

PDF 目录制作

有些 PDF 没有目录，不能像纸质书那样快速跳转，只能线性阅读，极大的限制了电子书的优势，所以我们需要制作目录.

一般流程为:

使用 Adobe Acrobat 或 ABBYY 等 OCR 软件对目录进行识别
用 VS Code 等编辑器对 OCR 结果进行处理，去除多余字符，修正错别字等
用 PdgCntEditor 打开 PDF 文件，粘贴上一步的处理结果，并使用自动切分页码、自动识别章节分级等功能进一步处理
保存并退出 PdgCntEditor

PDF 目录

PDF OCR

对 PDF 进行 OCR 后，可以复制 PDF 中的文字，还可以精确地对 PDF 中的文字进行批注和笔记.

PDF 有无 OCR 的批注对比

对 PDF 进行 OCR 比较简单，打开 Adobe Acrobat，选择功能「扫描和 OCR」，选择「识别文本」即可.

电子书的阅读

虽然电子书比起纸质书有很多优点，但有很多研究表明: 同样的材料，在纸介质上阅读比在屏幕上阅读能取得更好的效果，而且阅读内容的复杂性越高，纸介质的优势越明显.

有一部分原因是，电子屏幕小，翻页不如纸质方便，导致在电子屏幕上需要花费更多的精力去进行非线性阅读，而非线性阅读对于阅读复杂内容来说是不可或缺的.

所以我们一是需要更大的屏幕(或多个屏幕)来展示(和参考)更多的信息，二是用电子目录、历史跳转、非线性笔记来阅读电子书，以达到甚至超越纸质书的阅读效果.

下面根据不同的需求简单推荐几款 PDF 阅读软件.

简单阅读工具: Windows 上的 Edge、Chrome 等浏览器，iPad 上的 Documents by Readdle，它对笔记批注、电子目录、历史跳转等功能支持的很好.
非线性阅读工具: 全平台的 Zotero (也是文献管理工具)、LiquidText，iPad 上的 Flexcil、MarginNote 等.

这些工具的使用方法超出了本文的讨论范围，具体可以参考网上的相关资料.

Last modified on 2022-04-05