【发布时间】:2017-06-11 05:29:21
【问题描述】:
考虑到您无法验证数字值或读取每个条目,我想知道如何验证您提取和清理的文本数据。
我的具体案例是处理从 .mbox 文件中提取的电子邮件文本数据。所以有所有不同类型的格式——即签名等——我要分析的文本本质上是正文的一个小节。假设我想出了一种方法来提取我想要的内容,那么我该如何验证我将使用的数据是否是我特别想要的?
【问题讨论】:
标签: validation text nlp data-cleaning bigdata
考虑到您无法验证数字值或读取每个条目,我想知道如何验证您提取和清理的文本数据。
我的具体案例是处理从 .mbox 文件中提取的电子邮件文本数据。所以有所有不同类型的格式——即签名等——我要分析的文本本质上是正文的一个小节。假设我想出了一种方法来提取我想要的内容,那么我该如何验证我将使用的数据是否是我特别想要的?
【问题讨论】:
标签: validation text nlp data-cleaning bigdata
构建一个可以从示例消息中提取数据并将结果与所需结果进行比较的测试框架。
将随机选择的消息与所需的输出一起添加到测试框架。根据需要优化您的提取/清理代码,直到此测试通过。
然后添加另一个随机选择的消息,并继续细化提取代码,直到所有测试通过。
重复直到测试框架中的消息代表数据集的足够大的子集,您可以确信自己已经处理了所有可能的情况。
如果您发现一条消息没有做正确的事情,您可以将其添加到您的测试套件并修改您的代码,确信它不会破坏任何已知情况。
【讨论】: