从html文件的单引号中获取文本
我有一个html源文件,我需要提取其中的链接,链接数量因文件而异,链接格式如此,并且在单引号内:
../xxx/yyy/ccc/bbbb/nameoffile.extension
我需要在单引号之间获取文本,用http://
替换..
并将结果输出到文件。
我是一个新手,正在寻找一个解决方案来自动化终端中的这个过程。
它的html源文件和链接在文件中无处不在,我需要在文件中输出每行一个链接传递给我现有的xargs curl进行下载。
样本文件几乎是这样的:
blabla blibli afg fgfdg sdfg blo blo href= '../xxx/yyy/ccc/bbbb/nameoffile1.extension' target blibli bloblo href= '../xxx/yyy/ccc/bbbb/nameoffile2.extension' blibli bloblo href= '../xxx/yyy/ccc/bbbb/nameoffile3.extension' …
查找的结果是包含以下内容的文件:
http://zzcom/xxx/yyy/ccc/bbbb/nameoffile1.extension http://zzcom/xxx/yyy/ccc/bbbb/nameoffile2.extension http://zzcom/xxx/yyy/ccc/bbbb/nameoffile3.extension
请有人帮助我找到解决方案。
源文件尽可能接近:
Inter num num - nil
Test d'épreuve
Reçu le 11/03/2018 à 17:49
Client : zzz - Référence : 232323 - Désignation : Fiche d'accueil
M numnum ,
Job citée ci-dessus.
ci-joints toutes les informations nécessaires.
Sandy Jan
test@test.com
Documents nécessaires à votre réponse Job : Suivi Travaux - Article : 232323 - Fiche d'accueil Fiche.html text.pdf Fiched'accueil.doc
Notre commentaire mise a jour - Attention
Impression