【问题标题】:UTF-8 character setUTF-8 字符集
【发布时间】:2012-01-14 00:28:55
【问题描述】:

我有一个最多允许 120 个字符的表单域,并且还接受所有 UTF-8 unicode 字符集,包括为 i18n 字符提供的特殊、数字和 Alpha。它应该忽略前导和尾随空格

由于我主要使用有限的 ASCII 集,我不确定 UTF-8 会包含哪些内容。

您能否指导我了解 ASCII/UTF-8 的基本区别以及在上述要求下应允许的完整字符集。

谢谢。

【问题讨论】:

标签: javascript regex validation utf-8 ascii


【解决方案1】:

ASCII 仅包含 128 个字符,而最新版本的 Unicode 包含超过 109,000 个字符,涵盖 93 个脚本。

http://en.wikipedia.org/wiki/ASCII - 关于 ASCII 的完整描述

http://en.wikipedia.org/wiki/Unicode - 关于 Unicode 的维基文章

http://unicode.org/charts/ - Unicode 图表列表

【讨论】:

  • 非常感谢...由于字符集如此庞大,是否有任何标准方法可以为我在 utf-8 中所需的内容编写正则表达式?
【解决方案2】:

简单地说,UTF-8 是 US-ASCII 的超集。 ASCII 中的任何字符都可以用 UTF-8 表示,并使用相同的位表示。 UTF-8 是 Unicode 的一种表示形式,它允许表示任何当前定义的字符。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-05-26
    • 2011-02-26
    • 2012-06-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-08-21
    相关资源
    最近更新 更多