【发布时间】:2023-04-02 17:20:01
【问题描述】:
我需要提取这段文字:
Line 1 text.
Line 2 text. Line 2 some more text.
Line 3 text,
Line 4 text
来自此 HTML:
...
<tr><td class="td_my_custom_text">Line 1 text.
<br>Line 2 text. Line 2 some more text.
<br>Line 3 text,
<br>Line 4 text
<br></td></tr><tr><td> </td></tr>
...
使用这个正则表达式:<td\ class="td_my_custom_text">[\s\S]*?</td> 我设法得到了一些接近但还不够接近的东西。 <td class="td_my_custom_text">、<br> 和 </td> 还在里面,我被卡住了。
- 需要在我的正则表达式中进行哪些更改才能消除它们?
- 是否有一些 Windows 工具可以自动执行这项工作并将刚刚提取的数据复制到新文件中?我有 5000 多个这样的文件,我正在考虑使用正则表达式或 html 解析器制作一个小程序,但我想先知道是否有更好的方法。
【问题讨论】: