【发布时间】:2011-06-22 19:29:29
【问题描述】:
我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件 (.csv),例如,正确的大小写(允许各州保持大写和唯一的姓氏),识别字数字段中的特定单词,以及其他一些自定义规则。任何指导将不胜感激。
【问题讨论】:
标签: csv text data-quality
我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件 (.csv),例如,正确的大小写(允许各州保持大写和唯一的姓氏),识别字数字段中的特定单词,以及其他一些自定义规则。任何指导将不胜感激。
【问题讨论】:
标签: csv text data-quality
您可以使用 Talend Open Studio 来完成此任务。它是用于数据操作和集成的开源 ETL 工具。例如,您可以 ImportCSV >> DATABASE >> 执行转换 >> ExportCSV。无限可能。
你可以在这里找到它:http://www.talend.com/products-data-integration/talend-open-studio.php
听起来您可能正在寻找创建数据的配置文件。为此,您可以使用 Talend Open Profiler,他们最近添加了对 .csv 等平面文件的支持。它使用简单,您应该在 30 分钟内启动并运行。
你可以在这里找到下载:http://www.talend.com/products-data-quality/talend-open-profiler.php
你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php
在教程中选择 Data Quality 选项卡,然后向下滚动直到“Talend Open Profiler”
这是我评估新数据集数据质量的第一步。
【讨论】:
一个快速的谷歌“数据清理实用程序”出现了这个:
http://data-scrubbing.qarchive.org/
它们看起来非常接近您正在寻找的东西。
这实际上取决于规则的复杂程度。比简单的东西复杂得多,而且您可能只需编写一些代码(或对其进行编码)就可以领先。
【讨论】: