【问题标题】:What software is availible for data quality checking哪些软件可用于数据质量检查
【发布时间】:2011-06-22 19:29:29
【问题描述】:

我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件 (.csv),例如,正确的大小写(允许各州保持大写和唯一的姓氏),识别字数字段中的特定单词,以及其他一些自定义规则。任何指导将不胜感激。

【问题讨论】:

    标签: csv text data-quality


    【解决方案1】:

    您可以使用 Talend Open Studio 来完成此任务。它是用于数据操作和集成的开源 ETL 工具。例如,您可以 ImportCSV >> DATABASE >> 执行转换 >> ExportCSV。无限可能。

    你可以在这里找到它:http://www.talend.com/products-data-integration/talend-open-studio.php

    听起来您可能正在寻找创建数据的配置文件。为此,您可以使用 Talend Open Profiler,他们最近添加了对 .csv 等平面文件的支持。它使用简单,您应该在 30 分钟内启动并运行。

    你可以在这里找到下载:http://www.talend.com/products-data-quality/talend-open-profiler.php

    你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php

    在教程中选择 Data Quality 选项卡,然后向下滚动直到“Talend Open Profiler”

    这是我评估新数据集数据质量的第一步。

    【讨论】:

    • 谢谢,我去看看。看起来它可以满足要求!
    【解决方案2】:

    一个快速的谷歌“数据清理实用程序”出现了这个:

    http://data-scrubbing.qarchive.org/

    它们看起来非常接近您正在寻找的东西。

    这实际上取决于规则的复杂程度。比简单的东西复杂得多,而且您可能只需编写一些代码(或对其进行编码)就可以领先。

    【讨论】:

    • 这也是一个有趣的、稍微不那么复杂的工具。 (比 talend 简单)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-04-11
    • 1970-01-01
    • 1970-01-01
    • 2023-03-21
    • 1970-01-01
    • 2023-01-08
    • 1970-01-01
    相关资源
    最近更新 更多