【发布时间】:2012-07-01 09:35:13
【问题描述】:
我需要一个正则表达式,它将返回包含在双引号之间的文本,该双引号以指定的文本块开头,并以特定的文件扩展名(比如 .txt)结束。我正在使用 urllib2 来获取页面的 html(html 很简单)。
如果我有类似的东西
<tr>
<td valign="top"><img src="/icons/unknown.gif" alt="[ ]"></td>
<td><a href="Client-8.txt">new_Client-8.txt</a></td>
<td align="right">27-Jun-2012 18:02 </td>
</tr>
它应该回到我身边
Client-8.txt
返回值包含在双引号中。我知道文件名如何以“Client-”开头,文件扩展名为“.txt”。
我正在使用 r.search(regex, string) 我输入的字符串是页面的 html。但我讨厌正则表达式。
谢谢!
【问题讨论】:
-
是时候再次链接我最喜欢的答案了:stackoverflow.com/a/1732454/10077
-
好吧,这就结束了。现在来点完全不同的东西!谢谢!
标签: python regex web-scraping beautifulsoup urllib2