【发布时间】:2014-07-03 23:45:30
【问题描述】:
我有一个包含三个值的 python 列表:
address =
[<p>
<strong>CVS Pharmacy #</strong><br/>
1025 St Clair River Dr <br/>
Algonac, MI 48001<br/>
1-810-794-4941
</p>,
<p>
<strong>Kroger Pharmacy</strong><br/>
2600 Pointe Tremble <br/>
Algonac, MI 48001<br/>
1-810-671-4002
</p>,
<p>
<strong>Rite Aid Pharmacy 04943</strong><br/>
402 Pointe Tremble Road <br/>
Algonac, MI 48001<br/>
1-810-794-4985
</p>]
我想删除 HTML 标签。当一一尝试这样做时:
print(address[0].text)
我明白了:
CVS Pharmacy #
1025 St Clair River Dr
Algonac, MI 48001
1-810-794-4941
这就是我想要的。但是,当我遍历一个循环时,我得到:
[u'\nCVS Pharmacy #\n 1025 St Clair River Dr \n Algonac, MI 48001\n 1-810-794-4941\n ', u'\nKroger Pharmacy\n 2600 Pointe Tremble \n Algonac, MI 48001\n 1-810-671-4002\n ', u'\nRite Aid Pharmacy 04943\n 402 Pointe Tremble Road \n Algonac, MI 48001\n 1-810-794-4985\n ']
这不是我想要的,因为它有所有的 u's 和 \n's 和其他垃圾,而且都在一个长字符串中。是否有捷径可寻?如果有一种简单的方法可以用一块石头杀死两只鸟,我还想最终将这些附加到一个已经存在的 csv 文件中。
谢谢。
【问题讨论】:
-
u是 unicode。 "\n" 是换行符所以不是垃圾,你要把它全部写在你的csv文件的一行吗?
标签: python html parsing append