【问题标题】:How to convert array of tamil unicode values into tamil string in python with whitespaces?python - 如何在带有空格的python中将泰米尔语unicode值数组转换为泰米尔语字符串?
【发布时间】:2012-04-02 14:33:13
【问题描述】:

这是泰米尔语 unicode 代码点列表

[u'\u0b9a', u'\u0b9f', u'\u0bcd', u'\u0b9f', u'\u0b9a', u'\u0baa', u'\u0bc8', u'\u0baf ', u'\u0bbf', u'\u0bb2', u'\u0bcd', u'\u0ba8', u'\u0bc7', u'\u0bb1', u'\u0bcd', u'\u0bb1',你'\u0bc1]

如何将其转换为可读字符串?

【问题讨论】:

  • 那些已经是泰米尔语字母了。再试一次。
  • 我看到你改变了你的问题;你现在想显示你的字符“带空格”——哪个空格字符?多少?定位在哪里?试着举个例子。
  • 先生,我想打印泰米尔语的 unicode,因为它在带有空格的数组中。我不想加入数组中的内容并以泰米尔语字符显示
  • 实际上我想标记 tamilwords。为了标记它应该转换为 utf-8 unicode 来读取文件。读取后它应该被标记化。结果将是 unicode。我希望将 unicode 的结果转换为泰米尔语字母。但是在标记泰米尔语单词时我没有得到空格
  • 在标记泰米尔语单词时,每个单词都需要空格,但不是每个字符

标签: python unicode tamil python-unicode indic


【解决方案1】:

无需转换。

    >>> alist = [
            u'\u0b9a', u'\u0b9f', u'\u0bcd', u'\u0b9f', u'\u0b9a',
            u'\u0baa', u'\u0bc8', u'\u0baf', u'\u0bbf', u'\u0bb2',
            u'\u0bcd', u'\u0ba8', u'\u0bc7', u'\u0bb1', u'\u0bcd',
            u'\u0bb1', u'\u0bc1',
            ]
    >>> print u''.join(alist)
    சட்டசபையில்நேற்று
    >>> 

更新:也许你想要这个:

>>> print u' '.join(alist)
ச ட ் ட ச ப ை ய ி ல ் ந ே ற ் ற ு

或者这个:

>>> import unicodedata
>>> for c in alist:
    print repr(c), c, unicodedata.category(c)


u'\u0b9a' ச Lo
u'\u0b9f' ட Lo
u'\u0bcd' ் Mn
u'\u0b9f' ட Lo
u'\u0b9a' ச Lo
u'\u0baa' ப Lo
u'\u0bc8' ை Mc
u'\u0baf' ய Lo
u'\u0bbf' ி Mc
u'\u0bb2' ல Lo
u'\u0bcd' ் Mn
u'\u0ba8' ந Lo
u'\u0bc7' ே Mc
u'\u0bb1' ற Lo
u'\u0bcd' ் Mn
u'\u0bb1' ற Lo
u'\u0bc1' ு Mc
>>> 

【讨论】:

  • 感谢您的宝贵答复
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-12-03
  • 1970-01-01
  • 2012-01-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多