【发布时间】:2013-10-20 22:47:22
【问题描述】:
我想创建一个 Python 解析器来解析文件中的空白和语法。我想要做的是读取一个文件,并将每个空格、标点符号和单词放入列表中自己的元素中。到目前为止,我有以下用于分割空格的方法:
with open(fname, 'r') as f:
words = re.split("(\s+)", f.read())
with words 保存文件内容列表,每个空格作为其自己的元素。但是,我在解析标点符号时遇到了麻烦,因为列表元素可以包含像 "Hello" 这样的项目,元素中带有引号。相反,我希望它看起来像这样:
list = ['"', 'Hello', '"', '@', 'World']
相对于:
list = ['"Hello"', '@World']
如果有人可以帮助我,那就太好了!
【问题讨论】:
-
\s表示空格。如果您想拆分其他内容,则必须将其添加到拆分正则表达式中。例如[\s"'@] -
好吧,如果可能的话,我想将 "'@ all 作为元素包含在内。@MarcB
标签: python regex string file parsing