【发布时间】:2018-09-05 20:46:33
【问题描述】:
使用 OCR 解析从 pysical 形式转换而来的大型数据集,并使用 PostgreSQL COPY 将 .csv 文件插入 psql。一些记录的 ASCII 字节会导致错误导入 postgres,因为我想要 UTF-8 varchar() 中的数据,因为我相信使用 TEXT 类型列不会产生此错误。
DataError: invalid byte sequence for encoding "UTF8": 0xd6 0x53
CONTEXT: COPY table_name, line 112809
我想在写入 csv 文件之前过滤所有这些字节。
我相信像 PHP 的 FILTER_FLAG_STRIP_HIGH (http://php.net/manual/en/filter.filters.sanitize.php) 这样的东西会起作用,因为它可以删除所有大于 127 的高 ASCII 值。
python中有这样的功能吗?
【问题讨论】:
标签: php python utf-8 ascii data-cleaning