【发布时间】:2019-12-18 00:12:11
【问题描述】:
我想找到一种方法来确定 Unicode 字符是否存在于 Unicode 字符的标准化子集中,特别是 Latin basic 和 Latin-1。我正在使用 Python 2 和 unicodedata 模块,但需要一个也适用于 3 的解决方案,因为我的工作很快就会升级。
我目前的想法是使用 Unicode Scripts.txt 文件并将其解析为某种字典以进行搜索。问题是该文件中 Unicode 代码的格式是这样的。
02B9..02C1
和python中的Unicode点是这样的
`u'\xe6'
我不知道如何比较这两件事。我猜它是十六进制的,而 Python 的表示只是表示十六进制的另一种方式。
是否有任何现有的 Unicode 子集及其字符的 JSON 数据集可供我参考?谷歌搜索一无所获。由于数据集相对较小,最好只从维基百科页面制作一个?
【问题讨论】:
标签: python unicode hex python-unicode python-module-unicodedata