【发布时间】:2012-08-29 13:28:59
【问题描述】:
这是我需要抓取的示例代码块:
<p>This paragraph contains <a href="http://twitter.com/chsweb" data-placement="below" rel="twipsy" target="_blank" data-original-title="Twitter">links to Twitter folks</a>, and <a href="http://twitter.com/blogcycle" data-placement="below" rel="twipsy" target="_blank" data-original-title="Twitter">more links to other Twitter folks</a>, but it also contains <a href="http://www.someOtherWebsiteHere.com">non-Twitter links too</a>. How can I list only the Twitter links below?</p>
此脚本生成页面上每个 URL 的列表:
<script>
var allLinks = document.links;
for (var i=0; i<allLinks.length; i++) {
document.write(allLinks[i].href+"<BR/>");
}
</script>
如何修改脚本以使其仅列出包含特定域的 URL,例如; twitter.com/?
这是一个演示页面: http://chsweb.me/OucTum
【问题讨论】:
-
当你循环 DOM 节点集合时,当心
document.write,循环永远不会越过第一个节点。
标签: javascript unique scrape