每天3000页的免费额度,足够扫描好多本电子书了。
于是,我vibe code了一个开源小工具,打包了PaddleOCR的API,然后在代码层面做了一些工程化的优化处理,确保扫描版的PDF文件能够转化成排版优雅的Epub格式电子书,去除PDF文件中不必要的页眉,页脚,页码等杂乱元素的同时,最大程度保留原书内的插图,表格等内容。
既然工具是vibe code出来的,那么它的使用也是vibe code友好的:你只需提前去百度AI Studio申请一个API Key,准备好你要转换的扫描版PDF文件,然后把我这个github repo链接丢给你的AI Agent,让它帮你操作就好啦。
百度家的羊毛,不薅白不薅!
Github Repo地址:
https://github.com/jarodise/pdf2epub-paddle