【发布时间】:2014-03-21 05:29:05
【问题描述】:
我正在使用 python 和 BS4 从一个网站获取一系列链接,但我需要清理它们,所以我只能获取字符串中的 URL。
我得到的链接是这样的:
javascript:changeChannel('http://some-server.com/with1234init.also', 20);
我需要它看起来像这样
【问题讨论】:
-
你的尝试是什么?
-
所有字符串的格式是否完全相同,或者 HTML 中是否存在可能导致简单规则失败的极端情况?
-
我忘了提到我抓取的所有链接都是不同的。它们都以 javascript:changeChannel(' 部分开头,但网址不同,最后一个 ' 之后的结尾在所有链接中也不同