【发布时间】:2015-10-05 05:11:48
【问题描述】:
我需要将 WordPress 中的内容导入基于 Python 的 CMS Plone,并且我使用“;”将帖子表转储为一个巨大的 CSV vanilla 文件作为分隔符。
问题是来自csv module 的标准 CSV 阅读器不够智能,无法解析一行内的 HTML 内容(post_content 字段)。
例如,当解析器遇到<p>&nbsp;</p> 之类的内容时,它会将分号解释为字段分隔符,我最终会得到比字段更多的项目以及包含错误内容的字段。
还有其他方法可以解决此类问题吗?用正则表达式处理行对我来说似乎很可怕。
【问题讨论】:
-
哼。如果你先转换所有的 HTML 会不会好吗 进入空格,然后尝试 csv.reader?
-
您可以添加输入示例吗?
标签: python wordpress csv plone transmogrifier