#程序员

如果你想对站点内容进行爬虫,还有一条最简洁的系统原生命令可以搞定:

wget --random-wait -r -p -e robots=off -U mozilla Website_URL

加上 -nv 或 --no-verbose 参数后,输出的内容会变得更加简洁;加上 --accept-regex 参数后,你可以根据正则来过滤你需要的 uri。

下面是爬取 babel 站点文档的一个演示:
 
 
Back to Top