【发布时间】:2013-09-26 19:51:18
【问题描述】:
我工作的公司将在几个月后重新设计网站,我们需要一个表格,其中包含网站上每个页面的每个 URL。然后,最理想的情况是,会有包含一组预定义 JavaScript 变量(在本例中为 Omniture 变量,因此我们可以确保每个页面都正确标记其在站点层次结构中的位置)的值的列。
以下是给定页面的 HTML 中可能包含的示例:
<script type="text/javascript">
metrics_level2 = "biz";
metrics_level3 = "products";
metrics_level4 = "my_awesome_product";
metrics_pagename = "biz|products|my_awesome_product";
</script>
我已经用 RapidMiner 爬取了该网站,数据已经准备就绪,但我的问题是隔离这些变量并将“metrics_level2”、“metrics_level3”等放在自己的列中的最佳方法。 XPath 是最好的方法吗?常用表达?我对 XPath 的尝试似乎在标签之间引入了全部内容,这需要在事后进行大量清理。
【问题讨论】:
标签: javascript xpath phantomjs rapidminer adobe-analytics