如何仅使用根域名下载网站的PDF?
我正在使用此命令:
wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/
但我无法从网站上获取PDF。
例如,我有一个根域名:
www.example.com
这个网站有PDF,DOC,HTML等。我想通过只插入根域名而不是下载页面的确切地址来下载所有PDF。
以下命令应该起作用:
wget -r -A "*.pdf" "http://yourWebsite.net/"
有关更多信息,请参阅man wget
。
如果以上不起作用,请尝试:(替换URL)
lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {}
你可能需要安装lynx:
sudo apt install lynx