【发布时间】:2013-04-03 14:26:07
【问题描述】:
我正在努力获取 unicode 字符串的数量并尝试了各种选项。看起来是个小问题,但影响很大。
这里我试图获取字符串 str1 的长度。我得到它为 6。但实际上它是 3。将光标移到字符串“குமார்”上也将其显示为 3 个字符。
基本上我想测量长度并打印每个字符。比如“கு”、“மா”、“ர்”。
public class one {
public static void main(String[] args) {
String str1 = new String("குமார்");
System.out.print(str1.length());
}
}
PS:这是泰米尔语。
【问题讨论】:
-
对问题没有任何影响,但是没必要用
new String("..."),直接做:String str1 = "குமார்"; -
请参阅venkatarangan.com/blog/content/binary/… 获取有关此问题的论文。
-
博客内容非常丰富。但它并没有给我们在 java 中将字符串拆分为三个有意义的字符的选项。
-
twitter 有一个很好的关于他们如何计算字符的指南:dev.twitter.com/docs/counting-characters
-
the paper about Tamil encoding (@halex)、twitter developer guide (@portforwardpodcast) 和 a java code sample 的存档链接来自推特指南。
标签: java string utf-8 utf-16 unicode-string