【发布时间】:2017-09-12 21:42:28
【问题描述】:
我看到 BASH 括号范围(例如 [A-Z])的行为方式出乎意料。
这种行为是否有解释,或者这是一个错误?
假设我有一个变量,我想从中删除所有大写字母:
$ var='ABCDabcd0123'
$ echo "${var//[A-Z]/}"
我得到的结果是这样的:
a0123
如果我使用sed 执行此操作,我会得到预期的结果:
$ echo "${var}" | sed 's/[A-Z]//g'
abcd0123
BASH 内置的正则表达式匹配似乎也是如此:
$ [[ a =~ [A-Z] ]] ; echo $?
1
$ [[ b =~ [A-Z] ]] ; echo $?
0
如果我检查从'a'到'z'的所有小写字母,似乎只有'a'是一个例外:
$ for l in {a..z}; do [[ $l =~ [A-Z] ]] || echo $l; done
a
我没有启用不区分大小写的匹配,即使我启用了,它也不应该使字母 'a' 表现不同:
$ shopt -p nocasematch
shopt -u nocasematch
作为参考,我使用的是 Cygwin,但在任何其他机器上都没有看到这种行为:
$ uname
CYGWIN_NT-6.3
$ bash --version | head -1
GNU bash, version 4.3.46(7)-release (x86_64-unknown-cygwin)
$ locale
LANG=en_GB.UTF-8
LC_CTYPE="en_GB.UTF-8"
LC_NUMERIC="en_GB.UTF-8"
LC_TIME="en_GB.UTF-8"
LC_COLLATE="en_GB.UTF-8"
LC_MONETARY="en_GB.UTF-8"
LC_MESSAGES="en_GB.UTF-8"
LC_ALL=
编辑:
我发现这里报告了完全相同的问题:
https://bugs.launchpad.net/ubuntu/+source/bash/+bug/120687
所以,我猜这是“en_GB.UTF-8”排序规则的错误(?),而不是 BASH 本身。
设置LC_COLLATE=C 确实可以解决这个问题。
【问题讨论】:
-
@Inian 我已将其添加到问题中
-
@anubhava 我知道,但事实并非如此。这就是我问这个问题的原因。
-
@Mat:这是一个非常好的匹配线程,但是这种行为无法通过 OP 的语言环境设置重现。
-
@Mat 谢谢你的链接。实际上,设置 LC_COLLATE=C 使其行为符合预期。但我仍然想知道为什么它与 LC_COLLATE="en_GB.UTF-8" 一样有效。有什么方法可以准确地知道特定 LC_COLLATE 值的指定范围内将包含哪些字符?
标签: regex bash shell cygwin glob