【发布时间】:2017-04-05 14:16:27
【问题描述】:
我想从一个大文件中查找并提取被特定上下文包围的所有单词。文件中的所有行看起来都像这样,但>和<\w>之间的单词不同:
<="UO" lemma="|" lex="|" sense="|" prefix="|" suffix="|" compwf="|" complemgram="|" ref="05" dephead="04" deprel="ET">and<\w>
我只希望输出是“和”。所以我基本上想提取上下文>xxx<\w>中的所有字符串(单词、标点符号和数字)。我用 grep 和 regex 尝试了一堆不同的替代方案,但我要么用> 和<\w> 得到所有单词或模式......从整个文件中,我希望输出看起来像这样:
and
we
appreciate
this
very
much
.
等等……
【问题讨论】:
-
添加输入文本和预期输出
-
抱歉,由于某种原因,我第一次发帖时没有显示
-
“我只希望输出为 'and'”不足以解释您要达到的目标。请给我们一个输出应该是什么样子的例子;否则,我的建议是使用此代码:
echo "and" -
我想,输入文本中必须有单词
we appreciate this very much。更新您的输入 -
那么,您想将文件中的所有单词、标点符号和数字分成不同的行吗?就这些?