互联网从业者充电站
12:44 · 2023年11月21日 · 周二
#程序员
如果你想对站点内容进行爬虫,还有一条最简洁的系统原生命令可以搞定:
wget --random-wait -r -p -e robots=off -U mozilla Website_URL
加上 -nv 或 --no-verbose 参数后,输出的内容会变得更加简洁;加上 --accept-regex 参数后,你可以根据正则来过滤你需要的 uri。
下面是爬取 babel 站点文档的一个演示:
Home
Powered by
BroadcastChannel
&
Sepia