【问题标题】:Validating and cleaning text data验证和清理文本数据
【发布时间】:2017-06-11 05:29:21
【问题描述】:

考虑到您无法验证数字值或读取每个条目,我想知道如何验证您提取和清理的文本数据。

我的具体案例是处理从 .mbox 文件中提取的电子邮件文本数据。所以有所有不同类型的格式——即签名等——我要分析的文本本质上是正文的一个小节。假设我想出了一种方法来提取我想要的内容,那么我该如何验证我将使用的数据是否是我特别想要的?

【问题讨论】:

    标签: validation text nlp data-cleaning bigdata


    【解决方案1】:

    构建一个可以从示例消息中提取数据并将结果与​​所需结果进行比较的测试框架。

    将随机选择的消息与所需的输出一起添加到测试框架。根据需要优化您的提取/清理代码,直到此测试通过。

    然后添加另一个随机选择的消息,并继续细化提取代码,直到所有测试通过。

    重复直到测试框架中的消息代表数据集的足够大的子集,您可以确信自己已经处理了所有可能的情况。

    如果您发现一条消息没有做正确的事情,您可以将其添加到您的测试套件并修改您的代码,确信它不会破坏任何已知情况。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-07-02
      • 1970-01-01
      • 1970-01-01
      • 2015-09-30
      • 2016-02-12
      • 2016-06-13
      • 2017-04-16
      • 1970-01-01
      相关资源
      最近更新 更多