【发布时间】:2014-06-26 05:51:15
【问题描述】:
我正在尝试浏览网站的 HTML 并对其进行解析,以寻找班级的最大入学人数。我尝试在 HTML 文件的每一行中检查一个子字符串,但这会尝试解析错误的行。所以我现在正在使用正则表达式。我现在有 \t\t\t\t\t\t\t<td class="odd">([0-9])|([0-9][0-9])|([0-9][0-9][0-9])<\/td>\r\n 作为我的正则表达式,但这个正则表达式匹配最大注册人数以及节号。还有另一种方法可以解决我试图从网页中提取的内容吗? HTML 代码 sn-p 如下:
<tr>
<td class="tableHeader">Section</td>
<td class="odd">001</td>
</tr>
<tr>
<td class="tableHeader">Credits</td>
<td class="even" align="left"> 4.00</td>
</tr>
<tr>
<td class="tableHeader">Title</td>
<td class="odd">Linear Algebra</td>
</tr>
<tr>
<td class="tableHeader">Campus</td>
<td class="even" align="left">University City</td>
</tr>
<tr>
<td class="tableHeader">Instructor(s)</td>
<td class="odd">Guang Yang</td>
</tr>
<tr>
<td class="tableHeader">Instruction Type</td>
<td class="even">Lecture</td>
</tr>
<tr>
<td class="tableHeader">Max Enroll</td>
<td class="odd">30</td>
</tr>
【问题讨论】:
-
不同意这个骗局,不是问是否可以用正则表达式完成,而是错误地尝试这样做。
-
这不是重复的。该 OP 正试图实际匹配标签名称、类名等。我只是试图以一种我没有得到节号和最大注册号的方式提取内容。我只需要获取 Max Enroll 号码的帮助。
-
好吧,与其坐在那里侮辱我处理这个问题的方式,不如为我指出正确的方向更有成效,不是吗?
-
这就是我在全大写免责声明中提供链接的原因。 I could also write it using <blink></blink> using toilet?
标签: python html regex python-2.7 html-parsing