【问题标题】:Regular Expression for uppercase words大写单词的正则表达式
【发布时间】:2017-01-10 22:23:51
【问题描述】:

我有许多文档需要将文本分成块,文档包含需要将大写单词分成部分的文本

LORUM ipsum dolor sit amet, consectetur adipiscing elit, SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

会变成

LORUM ipsum dolor sit amet, consectetur adipiscing elit, 

SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, 

TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. 

UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

我尝试搜索返回大写单词的\b[A-Z](.*?)+\b,我尝试了\b[A-Z](.*?)+\b(.*?)\b[A-Z](.*?)+\b,它在一些文档中很接近,但在其他文档中失败,包括 Lorem Ipsum 示例。

【问题讨论】:

  • regex101.com/r/A1X6rG/1 是您要找的吗?看来您不想在Ut 上休息,对吗?
  • 谢谢,这帮助\b[A-Z]{3,}\b(.?)\b[A-Z]{3,}\b 获得了标题,我可以解决这个问题以获取内容。谢谢。
  • 为什么NEQUE porro...TOTAM REP... 的一部分?检查我的方法:\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)*。如果 ALLCAPS 单词至少应包含 2 个字符,请使用 \b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)*
  • (.?) 允许使用一个可选(非换行符)字符,这是您的意图吗?
  • 谢谢 Wiktor Stribiżew 完美:)

标签: php regex preg-match-all


【解决方案1】:

这里的匹配方法包括匹配连续的空格分隔的 ALLCAPS 单词,然后匹配任何不是以 2 个大写字母序列开头的字符:

\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)*

regex demo

如果 ALLCAPS 单词必须至少包含 2 个字母,请使用限制量词而不是 +

\b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)*
       ^^^            ^^^^

模式详情

  • \b - 前导词边界
  • [A-Z]+ - 1 个或多个大写 ASCII 字母
  • (?:\s+[A-Z]+)* - 零个或多个序列:
    • \s+ - 1+ 个空格
    • [A-Z]+ - 1+ 大写 ASCII 字母
  • (?:(?![A-Z]{2}).)* - 一个缓和的贪婪令牌,匹配任何不是以 2 个大写 ASCII 字母序列开头的字符。

【讨论】:

  • 该死的,好吧! :-)
【解决方案2】:

preg_split() 将参与其中:

$result = preg_split('/([A-Z][A-Z ]+)/',
                     $string,
                     null,
                     PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);
  • 拆分一个大写字母,后跟多个大写字母或空格[A-Z][A-Z ]+
  • 捕获匹配() 以及PREG_SPLIT_DELIM_CAPTURE

那么,除非有人在preg_split()内有更好的办法:

$result = array_map(function($v) {
                        return implode(' ', $v);
                    },
                    array_chunk($result, 2));
  • 将数组分块成对大写匹配和后面的内容
  • 内爆对

那么,如果你想要它返回一个带有换行符的字符串:

$result = implode("\n", $result);

【讨论】:

    【解决方案3】:

    这个正则表达式应该可以工作:[A-Z]\w+ 它选择所有大写的单词\w+ [A-Z]

    【讨论】:

      【解决方案4】:

      尝试搜索此正则表达式:(\s)(([A-Z]+\s\b)+)

      并替换为:\n\2 或此:\n\n\2 之间的两行。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-12-29
        • 1970-01-01
        • 2016-07-11
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多