【发布时间】:2016-09-20 13:05:00
【问题描述】:
我正在尝试在某个域中查找名称中包含某个字符串的所有页面。例如:
www.example.com/section/subsection/406751371-some-string
www.example.com/section/subsection/235824297-some-string
www.example.com/section/subsection/146783214-some-string
最好的方法是什么?
“-some-string”前面的数字可以是任意 9 位数字。我可以编写一个循环遍历所有可能的 9 位数字并尝试访问生成的 url 的脚本,但我一直认为应该有更有效的方法来做到这一点,特别是因为我知道总体上只有大约 1000 个可能以该字符串结尾的页面。
【问题讨论】:
-
遍历 url 并检查每个 url:
url.endswith('-some-string') -
@MosesKoledoye 听起来他可能没有明确的列表来迭代
-
你已经有一个 pyhton 脚本还是只有一个文本文件?
-
不,网站上的任何地方都没有特定网址的列表。我确实考虑过在谷歌上寻找它们(然后从搜索结果中提取它们)。但是有更好的方法吗?
-
@RiccardoPetraglia 我没有脚本我什至不确定我需要的是构建一个爬虫(或者可能不是?)。我以前(使用scrapy)刮过网站,但我有一个网址列表或一个起始网址。现在我没有 url 列表,我知道它们存在,但除非我遍历所有可能的数字组合,否则我不知道如何找到实际的 url。