【发布时间】:2014-06-05 12:16:57
【问题描述】:
我们有一个要求,我们需要抓取一组特定的 URL。
例如,我们有网站 abc.com。我们需要在“needed”文件夹下抓取 abc.com/test/needed——所有与此模式匹配的 URL。但我们不想抓取 abc.com/test/ 下的其余 URL。
我想这将使用 RegEx 完成。任何人都可以在 RegEx 方面帮助我吗?
【问题讨论】:
-
你的问题有些不清楚,你想要什么?你有一个 url 列表,你想匹配一些而不是其他?你想匹配哪些,不想匹配哪些,举个例子吧。
-
举个例子,我有以下网址 1) www.abc.com 2)www.abc.com /xyz 3) www.abc.com/xyz/imp 4) www.abc.com/ xyz/waste 5) www.abc.com/pqr 我正在寻找一个正则表达式,它将找到具有模式“/xyz”的匹配 uls,但如果它的“xyz/imp”它应该跳过所有组合f或“/xyz”应该匹配。
-
所以你想匹配
/xyz形式但不是/xyz/imp形式的东西? -
我想匹配 www.abc.com/xyz/imp , www.abc.com/ , www.abc.com/pqr 但不是 www.abc.com/xyz/waste 。跨度>
标签: regex search search-engine google-search-appliance