【发布时间】:2013-12-19 01:57:22
【问题描述】:
我正在尝试使用 lxml.html.clean.Cleaner() 清理 HTML 表。我需要去除 JavaScript 属性,但想保留内联 CSS 样式。我认为 style=False 是默认设置:
import lxml.html.clean
cleaner = lxml.html.clean.Cleaner()
但是当我打电话给cleaner.clean_html(doc)
<span style="color:#008800;">67.51</span>
会变成
<span>67.51</span>
基本上,不会保留样式。我尝试添加:
cleaner.style= False
没用。
更新:我在 Dreamhost 上使用 Python 2.6.6 + lxml 3.2.4,在本地 Macbook 上使用 Python 2.7.5 + lxml 3.2.4。结果相同。另一件事:我的 html 中有一个与 javacript 相关的属性:
<td style="cursor:pointer;">Ticker</td>
会不会是 lxml 剥离了这种与 JavaScript 相关的样式并以相同的方式对待其他样式?我希望不会。
【问题讨论】:
-
你使用什么版本的 Python 和 lxml?
-
嗨,mzjn,感谢您的评论!请查看更新。