使用FME匹配中文

前言

从2015开始，在FME中匹配中文变成了一件麻烦事，以往版本中在StringSearcher匹配中文的“[\u4e00-\u9fa5]+”写法不好用了。本文将以两种方式在新版的FME中匹配中文。

通过转换器，具体思路如下：

1. 对这个表达式进行分析：在正则表达式中中括号里的内容表示一个集合，是要匹配字符的范围。

2. 我们在匹配英文的时候一般可以这么写“[a-zA-Z]+”，这表示要匹配英文，不论大小写。

3. 所以，我们匹配中文的时候是不是也可以这么写，将Unicode编码对应的汉字“一-龥”写进去？经测试，可行。

转换器设置及匹配结果截图如下：

使用FME匹配中文

通过Python去匹配中文这种方式可以直接使用Python中的re包进行中文的匹配，自然可以达到匹配中文的效果。

转换器设置及匹配结果截图如下：

使用FME匹配中文

两种方式都可以在新版的FME中达到匹配中文的效果，具体是要使用转换器还是写两行代码，这个要看心情。

欢迎关注本人公众号，以便接收最新技术资讯