NLTK：将原始字符串转换为普通字符串

【问题标题】：NLTK: Converting raw string to normal stringNLTK：将原始字符串转换为普通字符串
【发布时间】：2017-08-27 14:21:48
【问题描述】：

我有一篇来自 NLTK 路透社语料库的文章，作为原始字符串

>>>from nltk.corpus import reuters
>>>retail_article = reuters.raw('training/8173')
>>>print (retail_article)

"FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n  French gross domestic 
 product should grow\n  by 2.3 pct in 1988 after two pct growth this year 
 and 2.1 pct\n  in 1986, the Finance Ministry said.\n      The latest 
 forecast,...

我希望文本位于单独的行中，而不是 \n。我该怎么做？

>>>type(retail_article)
str

decode() 不适用于字符串，encode() 没有给出想要的结果。

TIA

【问题讨论】：

标签： string python-3.x nlp nltk

【解决方案1】：

您显示的输出不是通过编写print(retail_article) 生成的。很明显，您在解释器提示符下只输入了retail_article。差异很大，这似乎是您困惑的根源。

无需转换。 “原始”字符串是一种编写文字字符串的方式。语料库阅读器的raw() 方法不返回“原始字符串”，它只是返回一个字符串。（方法名称指的是没有进行任何处理；返回文件的确切内容。）

您的字符串 retail_article 包含实际的换行符，而不是 \、n 序列。要查看换行符，请使用 print(retail_article)。当您在命令提示符下写retail_article 时，您会得到字符串的明确表示（所谓的“repr”形式）——您正在查看的内容。

【讨论】：