【发布时间】:2018-08-29 00:24:04
【问题描述】:
我有一个问题。我正在用 Beautiful soup 解析一个网站,并将一些 html 标记及其内容添加到根据它们满足的条件授予的两个不同列表中。无论如何,我有两个列表,
name = [<a class="name-link" href="/shop/tops-sweaters/wxyvjbwed/emon78ji2">Vertical Logo Baseball Jersey</a>, <a class="name-link" href="/shop/tops-sweaters/wxyvjbwed/q2j1gm57b">Vertical L
ogo Baseball Jersey</a>, <a class="name-link" href="/shop/tops-sweaters/wxyvjbwed/ulovwdkr3">Vertical Logo Baseball Jersey</a>]
和
color = [<a class="name-link" href="/shop/tops-sweaters/wxyvjbwed/emon78ji2">Red</a>, <a class="name-link" href="/shop/tops-sweaters/noh7spfz2/kg3lseuzf">Red</a>, <a class="name-link" href="
/shop/tops-sweaters/p98rptfuw/a52kgnw0j">Red</a>, <a class="name-link" href="/shop/tops-sweaters/jxupqcv7o/vbj8g1f7u">Red</a>, <a class="name-link" href="/shop/tops-sweaters/gxfe5iqz
b/ulw54cqk3">Red</a>]
这两个列表之间有一组匹配的href。在我列出列表之前,我不知道那个 href 值是什么。是否有任何 html 库或 python 内置的东西可以帮助解决我的问题?这也是列表之间的匹配href, "/shop/tops-sweaters/wxyvjbwed/emon78ji2" 。这应该是输出
编辑:这是 html 结构。 h1 标签围绕着标签。
<h1><a class="name-link" href="/shop/tops-sweaters/wxyvjbwed/emon78ji2">Vertical Logo Baseball Jersey</a></h1>
【问题讨论】:
-
你的预期输出是什么?
-
"/shop/tops-sweaters/wxyvjbwed/emon78ji2" 是预期的输出。或 href="/shop/tops-sweaters/wxyvjbwed/emon78ji2"。那是两个列表之间的相似href
-
我还是会使用
beautiful soup,看看这个:stackoverflow.com/questions/5815747/beautifulsoup-getting-href