【发布时间】:2011-11-19 20:00:02
【问题描述】:
我正在使用 BeautifulSoup 来解析包含艺术家和专辑信息的网页内容。我已将信息解析为:
`<span dir="ltr"><a href="unique?id=1234">Jay-Z</a> & <a href="unique?id" = 321">Kanye West</a> - Watch the Throne</span>`
专辑名称(在本例中为“Watch the Throne”)始终位于结束 </span> 标记之前。
无论专辑中包含多少艺术家,无论是单个艺术家还是 30 位艺术家,我都需要从整个 <span> 元素中解析出专辑数据。
难点在于专辑名在两个结束标签元素之间。
有什么想法吗?
【问题讨论】:
标签: python html parsing beautifulsoup