【问题标题】:How to remove non-printable characters如何删除不可打印的字符
【发布时间】:2020-03-18 12:29:12
【问题描述】:

我正在尝试从 Golang 中的字符串中删除不可打印的字符。

https://play.golang.org/p/Touihf5-hGH

invisibleChars := "Douglas​"
fmt.Println(invisibleChars)
fmt.Println(len(invisibleChars))

normal := "Douglas"
fmt.Println(normal)
fmt.Println(len(normal))

输出:

Douglas​
10
Douglas
7

第一个字符串末尾有一个不可见的字符。

我尝试替换非 ASCII 字符,但它也删除了重音符号。

如何只删除不可打印的字符?

【问题讨论】:

标签: string go unicode utf-8


【解决方案1】:

前言:我在我的github.com/icza/gox 库中发布了这个实用程序,请参阅stringsx.Clean()


您可以删除 unicode.IsGraphic()unicode.IsPrint() 报告错误的符文。要从字符串中删除某些runes,您可以使用strings.Map()

例如:

invisibleChars := "Douglas​"
fmt.Printf("%q\n", invisibleChars)
fmt.Println(len(invisibleChars))

clean := strings.Map(func(r rune) rune {
    if unicode.IsGraphic(r) {
        return r
    }
    return -1
}, invisibleChars)

fmt.Printf("%q\n", clean)
fmt.Println(len(clean))

clean = strings.Map(func(r rune) rune {
    if unicode.IsPrint(r) {
        return r
    }
    return -1
}, invisibleChars)

fmt.Printf("%q\n", clean)
fmt.Println(len(clean))

这个输出(在Go Playground上试试):

"Douglas\u200b"
10
"Douglas"
7
"Douglas"
7

【讨论】:

    【解决方案2】:
    invisibleChars = strings.TrimFunc(invisibleChars, func(r rune) bool {
            return !unicode.IsGraphic(r)
        })
    

    去游乐场:https://play.golang.org/p/39yWgnnRPXr

    【讨论】:

      最近更新 更多