【问题标题】:How to find words with more than one accent如何查找具有多个口音的单词
【发布时间】:2016-04-22 15:43:39
【问题描述】:

我有一个包含数千行的列表,我正在尝试识别那些包含多个重音字符的单词的行,以便进一步分析。可能会有用破折号分隔的单词,这些单词只有在其中一个部分包含至少两个重音字符时才有意义。

来自以下列表

caouennec lanvézéac
caouennec lanvezéac
caouennec-lanvezéac
caouennec lanvezeac
caouennec-lanvézéac

我要找

caouennec lanvézéac
caouennec-lanvézéac

【问题讨论】:

    标签: regex perl nlp text-processing


    【解决方案1】:

    我使用以下(Perl 风格的)正则表达式成功地找到了这些行:

    ^.*[ÁÉÍÓÚáéíóú][^- ]*[ÁÉÍÓÚáéíóú].*$
    

    匹配包含一组字符的每一行,这些字符未由空格或破折号分隔,但包含多个指定字符。

    【讨论】:

    • 我不知道为什么有人应该否决这个答案?它是正确的、完整的并且适用于上述问题 - 我在这里做错了什么我不明白的事情吗?
    • 我对它投了反对票,因为它只涵盖了非常有限的重音字符子集。
    • 是的,但这些是我正在使用的,也是我要求的,您可以轻松添加其他人。如果有比列出它们更优雅的解决方案,我不知道。不过还是谢谢你的解释!
    猜你喜欢
    • 2020-08-17
    • 2022-01-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-07-03
    • 2019-04-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多