GitHub - cv-cat/Spider_XHS: 小红书爬虫数据采集,小红书全域运营解决方案

为什么我们在小红书辛辛苦苦写了一堆图文笔记,想做复盘的时候,还在一篇篇手动复制粘贴正文和图片呢? 

最近在折腾小红书数据,发现一个挺成熟的开源项目 Spider_XHS,可以说是「创作者把自己内容拿回来」的工具箱了。它支持登录你自己的账号,批量把图文笔记抓下来,导出成 Excel 和本地图片视频文件夹,方便你做二次分析、备份、复用。 

简单说下玩法思路,给有技术基础的创造者一个方向:
1️⃣ 在 GitHub 上搜 Spider_XHS,把项目拉到本地,按说明装好 Python 和 Node 环境
2️⃣ 用自己的小红书登录信息完成授权,这一步本质是让程序「代替你自己」访问本来就能看到的内容
3️⃣ 选择想要抓的维度,比如自己发布的笔记、喜欢夹、收藏夹,然后一键导出到 Excel 或媒体目录

对小红书创作者来说,这意味着几件事。
1️⃣ 你终于可以像运营公众号、网站那样,系统性地回看自己哪类内容更容易被点赞收藏
2️⃣ 你可以把图文素材沉淀到本地或私有库里,后面无论做课程、电子书还是多平台分发,都有一手素材
3️⃣ 搭配你自己的 AI 工作流,用这些历史笔记去训练提示词、优化选题,而不是完全依赖平台的只读后台

这里也提醒一下,Spider_XHS 的作者在 README 里写得很清楚,只用于学习交流,任何「数据注入」和违规用途都不被允许,使用时要尊重平台规则和他人隐私,最好只抓自己账号下有权限访问的内容。 

纳瓦尔说过,真正的杠杆来自代码和媒体。对今天的小红书创作者来说,把自己生产过的内容结构化、可搜索、可分析,其实是在给自己加一层数据杠杆。

如果你本身就会一点 Python,这个项目值得你周末花两个小时折腾一下。等哪天你要做选题数据库、素材知识库,或者给自己的内容上 AI,大概率会感谢今天多走的这一步。

创造者们,如果你已经在用小红书做内容,这种把「内容资产化」的小工具,可以早点用起来。

GitHub 仓库在这里 👇
 
 
Back to Top