【发布时间】:2018-02-06 07:35:41
【问题描述】:
我正在尝试使用 VBA 抓取页面。我知道如何通过 id class 和 tag 名称获取元素。但是现在我遇到了这个标签
<!-- <b>IE CODE : 3407004044</b> -->
现在在互联网上搜索后,我知道这是 HTML 中的注释,但我无法找到该元素的标签名称,如果它完全符合标签的条件。我应该使用
documnet.getelementsbytagname("!") ?
如果没有,我还能如何提取这些 cmets ?
编辑:
我在 tr 元素中有一堆这些 td 元素,我想提取 IE Code : 3407004044
下面是一组更大的 HTML 代码:
<tr align="left">
<td width="50%" class="subhead1">
' this is the part that I want to extract
<!-- <b>IE CODE : 3108011111</b> -->
</td>
<td rowspan="9" valign="top">
<span id="datalist1_ctl00_lbl_p"></span>
</td>
</tr>
谢谢!
【问题讨论】:
-
你能把更大的sn-p贴在这里做实验吗?前几天,在处理一个站点时,我在解析来自 cmets 的数据时遇到了这样的困难。然而,问题是 IE 可以非常有效地处理它。您在脚本中的其他地方出错了。
-
我添加了 HTML sn-p
-
是评论节点。由于浏览器不支持 XPath,因此无法使用 IE 搜索它。虽然您可以简单地使用
txt = document.documentElement.innerHTML从页面中读取所有 HTML,然后使用正则表达式搜索目标代码:IE CODE : \w+。
标签: html vba internet-explorer web-scraping