【发布时间】:2016-07-25 09:57:14
【问题描述】:
我有一个来自自然语言的文本文件,其中填充了不同标签形式的封装数据。例如:
<Age>53 year old</Age> woman, well known since earlier. Currently under the care of <First_Name>Sara</First_Name> <Last_Name>Storm</Last_Name> and dr. <First_Name>John</First_Name> <Last_Name>Beck</Last_Name>
提取所有标签及其数据的最佳方法是什么?我想要的输出是
<Age>53 year old</Age> <First_Name>Sara</First_Name> <First_Name>John</First_Name> <Last_Name>Storm</Last_Name> <Last_Name>Beck</Last_Name>
我尝试使用循环遍历字符串来查找标记的索引。由于我想将不同的标签和封装数据添加到列表中,因此此解决方案不合适:
string findFirstName = "<First_Name>";
string findLastName = "<Last_Name>";
string endFirstName = "</First_Name>";
string endLastName = "</Last_Name>";
string findAge = "<Age>";
string endAge = "</Age>";
int startIndex;
int endIndex;
int length;
foreach (Match m in Regex.Matches(pieceContent, findFirstName))
{
startIndex = m.Index;
}
谢谢!
【问题讨论】:
-
为什么不为此使用 XML 解析器?
-
@SelmanGenç - 这不是 XML。