【发布时间】:2021-12-07 09:24:45
【问题描述】:
我有用非组合字符表示的带有重音符号和变音符号的字符串:
vyˇcíslitelnost (nerozhodnutelnost, v ˇety o neúplnosti),um ˇelá inteligence (automatické odvozování, rezoluce), univerzální nástroje: SAT a SMT ˇrešiˇce
我想把它们变成组合字符。例如上面的字符串看起来像:
vyčíslitelnost (nerozhodnutelnost, věty o neúplnosti),umělá inteligence (automatické odvozování, rezoluce), univerzální nástroje: SAT a SMT řešiče
我怎样才能做到这一点?我已经尝试过unicodedata.normalize,但它对非组合字符没有影响。
感谢您的帮助
【问题讨论】:
-
来自对我已删除答案的评论:“我想把“ˇc”变成“č”。
-
我不知道更好的方法,但在en.wikipedia.org/wiki/Spacing_Modifier_Letters 你会看到组合字符的非组合版本。您可能希望将它们中的每一个与组合代码进行映射(Unicode 网站具有搜索功能,名称应该非常相似,或查看en.wikipedia.org/wiki/Combining_Diacritical_Marks)。肯定会有其他的块。
标签: python unicode character-encoding python-unicode