使用 Notepad++ 或任何其他工具标记文本答案

【问题标题】：Labelling text using Notepad++ or any other tool使用 Notepad++ 或任何其他工具标记文本
【发布时间】：2014-08-24 12:47:33
【问题描述】：

I have several .dat, containing information about hotel reviews as below
/*
<Author> simmotours
<Content> review......goes here
<Date>Nov 18, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>4`enter code here`
<Value>4
<Rooms>3
<Location>4
<Cleanliness>4
<Check in / front desk>4
<Service>4
<Business service>-1

*/ 我想将评论分为两个 pos 和 neg ，即有两个文件夹 pos 和 neg 包含几个文件，其中评论高于 3 归类为正面，低于 3 归类为负面。

How can I quickly and efficiently automate this process?

【问题讨论】：

您拥有的文件是否与您所指示的一样，还是一个正确的 XML 文件？
按照我的指示！

标签： python-3.x notepad++ classification text-processing sentiment-analysis

【解决方案1】：

您可以编写一个 Python 脚本来读取总分。通过使用 readline() 遍历行来做到这一点，请参阅here。使用一些字符串解析找到“总体”分数。然后将文件移动到正确的目录中。在 Python 中要做的所有非常简单的事情，只需将其分解为步骤并搜索这些步骤的答案。

【讨论】：

我正在考虑通过添加、等将上述格式转换为 XML，然后使用一些 XML 解析器进行解析。但我不知道我们如何追加。即搜索 * 并将其替换为 *
@user3801185 用<\1>\2</\1> 简单搜索/替换^<(\w+)>(.*)$，假设这些行与示例中的行相同并且没有嵌入< 或>。但需要事先将 <No. Reader> 和其他非字母数字的标签更改为有效标签。

【解决方案2】：

Notepad++ 可以用正则表达式进行替换。并允许定义宏。使用它们将文件转换为 XML 文件。查看帮助文件。

然后你可以用任何脚本语言阅读它并做你想做的事。

或者，您可以将文件更改为可以将其加载到 Excel 并在那里进行分析的表单。

【讨论】：