【发布时间】:2019-03-31 06:32:45
【问题描述】:
我有包含信息的 html 文件
<li>
<a title="Title_01" href="http://mysite.ru/test/portal/doc/#number=ABC01" target="_blank"><span class="i">ABC01 01/02 </span>(2006.01)</a>
</li>
<li>
<a title="Title_02" href="http://mysite.ru/test/portal/doc/#number=ABC02" target="_blank"><span class="i">ABC02 02/02 </span>(2006.01)</a>
</li>
<p>(73) Name(test):<b>
<br>MY TEST ORGANIZATION (TT)</b>
</p>
我可以使用命令 grep 解析数据,然后手动将数据连接到 Excel 中
grep "number=" *.html > tt.txt
但是有没有一些方法可以用 grep 来完成,我会将结果放入 csv 文件中
MY TEST ORGANIZATION, ABC01
MY TEST ORGANIZATION, ABC02
【问题讨论】:
-
在您想要的结果示例中,“MY TEST ORGANIZATION”是在“number=”之后找到 ABC01 和 ABC02 的 html 文件的名称?还是只是匹配后段落中的粗体文本?要么 。 . .
-
这些部分都在一个 html 文件中