【发布时间】:2014-02-08 10:59:51
【问题描述】:
这里是示例文本
|英文停用词列表。评论以竖线开头。每一站 |单词在行首。
|以下许多表格非常罕见(例如“您自己”),但包括 |完整性。
| PRONOUNS FORMS
| 1st person sing
我 |主题,当然总是大写
我 |对象
我的 |所有格形容词
我想删除所有出现在栏右侧的文本,包括栏本身,我在正则表达式方面没有什么困难。
这是我一直在尝试的代码
FileReader reader = new FileReader("C:\\Users\\Masood\\Desktop\\IR\\Programming\\Material\\stopwords.txt");
StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(reader);
String line;
String source2 = null;
while ( (line=br.readLine()) != null) {
line.replaceAll("[|(.*)]","");
sb.append(line);
}
String source = sb.toString();
System.out.println(source);
我输出的是字符串''i me my'',其他的都应该没有了
【问题讨论】:
-
试试这个正则表达式:[|](.*)[\n]