互联网从业者充电站

GitHub - cv-cat/Spider_XHS: 小红书爬虫数据采集，小红书全域运营解决方案

为什么我们在小红书辛辛苦苦写了一堆图文笔记，想做复盘的时候，还在一篇篇手动复制粘贴正文和图片呢？

最近在折腾小红书数据，发现一个挺成熟的开源项目 Spider_XHS，可以说是「创作者把自己内容拿回来」的工具箱了。它支持登录你自己的账号，批量把图文笔记抓下来，导出成 Excel 和本地图片视频文件夹，方便你做二次分析、备份、复用。

简单说下玩法思路，给有技术基础的创造者一个方向：
1️⃣ 在 GitHub 上搜 Spider_XHS，把项目拉到本地，按说明装好 Python 和 Node 环境
2️⃣ 用自己的小红书登录信息完成授权，这一步本质是让程序「代替你自己」访问本来就能看到的内容
3️⃣ 选择想要抓的维度，比如自己发布的笔记、喜欢夹、收藏夹，然后一键导出到 Excel 或媒体目录

对小红书创作者来说，这意味着几件事。
1️⃣ 你终于可以像运营公众号、网站那样，系统性地回看自己哪类内容更容易被点赞收藏
2️⃣ 你可以把图文素材沉淀到本地或私有库里，后面无论做课程、电子书还是多平台分发，都有一手素材
3️⃣ 搭配你自己的 AI 工作流，用这些历史笔记去训练提示词、优化选题，而不是完全依赖平台的只读后台

这里也提醒一下，Spider_XHS 的作者在 README 里写得很清楚，只用于学习交流，任何「数据注入」和违规用途都不被允许，使用时要尊重平台规则和他人隐私，最好只抓自己账号下有权限访问的内容。

纳瓦尔说过，真正的杠杆来自代码和媒体。对今天的小红书创作者来说，把自己生产过的内容结构化、可搜索、可分析，其实是在给自己加一层数据杠杆。

如果你本身就会一点 Python，这个项目值得你周末花两个小时折腾一下。等哪天你要做选题数据库、素材知识库，或者给自己的内容上 AI，大概率会感谢今天多走的这一步。

创造者们，如果你已经在用小红书做内容，这种把「内容资产化」的小工具，可以早点用起来。

GitHub 仓库在这里 👇