【发布时间】:2015-02-13 03:10:44
【问题描述】:
我有一组非常大的数据(stackoverflow 的数据转储之一),它们完全是原始和经过清理的形式。
For example: </p>
是否有一种已经确立的方法可以将上述和类似的内容转换回其原始形式以提高可读性和可用性?偶然的python脚本或函数调用?
【问题讨论】:
-
这太笼统了。许多语言都有这样的特点。此外,如果您使用适当的 XML 解析器,这些转义将不会首先出现在您的字符串中
-
我在寻求一种方法来取消消毒 - 我不在乎如何。 PS它的30Gb
标签: xml database sanitization