【发布时间】:2013-05-27 08:15:08
【问题描述】:
我正在寻找一个漂亮的汤命令组合,以正确的顺序从 a-tag 字符串中提取“字符串”。
来源 1:
<a href="target" title="title">a-string <img alt="img-alt"> <span>span-string</span></a>
目标 1: "a-string img-alt span-string"
来源 2:
<a href="target" title="title"><span>span</span> string <img alt="alt"></a>
目标 2: "span-string a-string img-alt"
很容易通过“find_all()”获取子元素,通过“get_text()”获取文本。
如何获得不同“字符串”的正确顺序?还是依次解析a-string中的所有信息?
【问题讨论】:
-
您在寻找什么“字符串”?为什么不
target-title-a-string -img-al span-string和target-title-span string-alt? -
有时我们通过用这个字母的图像替换单个字符来“保护”值,例如“地狱老兄”
标签: python beautifulsoup