【问题标题】:Labelling text using Notepad++ or any other tool使用 Notepad++ 或任何其他工具标记文本
【发布时间】:2014-08-24 12:47:33
【问题描述】:
I have several .dat, containing information about hotel reviews as below
/*
<Author> simmotours
<Content> review......goes here
<Date>Nov 18, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>4`enter code here`
<Value>4
<Rooms>3
<Location>4
<Cleanliness>4
<Check in / front desk>4
<Service>4
<Business service>-1

*/ 我想将评论分为两个 pos 和 neg ,即有两个文件夹 pos 和 neg 包含几个文件,其中评论高于 3 归类为正面,低于 3 归类为负面。

How can I quickly and efficiently automate this process?

【问题讨论】:

  • 您拥有的文件是否与您所指示的一样,还是一个正确的 XML 文件?
  • 按照我的指示!

标签: python-3.x notepad++ classification text-processing sentiment-analysis


【解决方案1】:

您可以编写一个 Python 脚本来读取总分。通过使用 readline() 遍历行来做到这一点,请参阅here。使用一些字符串解析找到“总体”分数。然后将文件移动到正确的目录中。在 Python 中要做的所有非常简单的事情,只需将其分解为步骤并搜索这些步骤的答案。

【讨论】:

  • 我正在考虑通过添加 、 等将上述格式转换为 XML,然后使用一些 XML 解析器进行解析。但我不知道我们如何追加。即搜索 * 并将其替换为 *
  • @user3801185 用&lt;\1&gt;\2&lt;/\1&gt; 简单搜索/替换^&lt;(\w+)&gt;(.*)$,假设这些行与示例中的行相同并且没有嵌入&lt;&gt;。但需要事先将 &lt;No. Reader&gt; 和其他非字母数字的标签更改为有效标签。
【解决方案2】:

Notepad++ 可以用正则表达式进行替换。并允许定义宏。使用它们将文件转换为 XML 文件。查看帮助文件。

然后你可以用任何脚本语言阅读它并做你想做的事。

或者,您可以将文件更改为可以将其加载到 Excel 并在那里进行分析的表单。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-10
    • 1970-01-01
    • 2018-03-29
    • 2017-02-20
    • 2015-04-13
    相关资源
    最近更新 更多