【问题标题】:A way to identify punctuation in hebrew? C#一种识别希伯来语标点符号的方法? C#
【发布时间】:2012-12-07 05:05:35
【问题描述】:

最近我想到是否可以使用 C# 识别希伯来语单词的标点符号。 希伯来语中有一些标点符号,如:

יוּעָדוּ

当然,通常我们不会标点词,所以它应该是这样的:

יועדו

有没有办法使用 C# 来识别诸如此类的单词的标点符号?

【问题讨论】:

  • 您是否正在寻找超出字符串比较和匹配所能达到的目标?
  • 您可以使用正则表达式并搜索标点符号,但我相信您已经知道这一点。你试过什么不起作用?
  • @ryadavilli - 我正在寻找一个可以识别单词标点符号的单词。例如,我在帖子中写的单词,我希望 C# 程序识别标点符号和标点符号本身。我希望你现在能更好地理解我的问题。
  • @lc。我已经阅读了一些关于正则表达式的内容,但这不是我需要的。我还没有尝试过任何事情,我所做的只是阅读并思考如何回答我的问题,最终导致我来到这里。
  • 只需查找字符的 Unicode 类别即可。

标签: c# punctuation


【解决方案1】:

在 Python 中,序列解析如下:

>>> a = unicode('יוּעָדוּ', 'utf-8')
>>> b = unicode('יועדו', 'utf-8')
>>> a
u'\u05d9\u05d5\u05bc\u05e2\u05b8\u05d3\u05d5\u05bc'
>>> b
u'\u05d9\u05d5      \u05e2      \u05d3\u05d5'

(我添加了空格以使内容更清晰。)

您可以清楚地看到标点符号。寻找这些的 C# 正则表达式可能是您想要的方向。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2010-11-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-10-04
    • 1970-01-01
    相关资源
    最近更新 更多