【发布时间】:2020-03-17 22:53:21
【问题描述】:
我有一个 5GB+ 的 TSV 文件。我需要可视化它包含的数据,但 Excel 无法打开文件(显然太大了)。 Tableau 不能处理 TSV 文件,Access 也不能。我尝试使用 010 Editor,它可以打开文件但不能以有用的格式导出。如何打开/导出/转换它?
【问题讨论】:
标签: excel dataset data-visualization tsv tableau-api
我有一个 5GB+ 的 TSV 文件。我需要可视化它包含的数据,但 Excel 无法打开文件(显然太大了)。 Tableau 不能处理 TSV 文件,Access 也不能。我尝试使用 010 Editor,它可以打开文件但不能以有用的格式导出。如何打开/导出/转换它?
【问题讨论】:
标签: excel dataset data-visualization tsv tableau-api
我以前遇到过这个问题。麻烦的是,为了在 Excel 中打开文件,您通常必须将整个文件加载到内存中。当文件为 50 或 500k 时这很好,但当文件为 5GB 时,系统无法将其加载到内存中。
为了处理这么多数据,您确实需要将其加载到数据库中并对其运行查询。数据库经过优化,可以处理大量数据(甚至超过 5GB)。
棘手的部分是将这些数据加载到数据库中。您需要一个可以解析文件(逐行读取)并将每个 TSV 值插入适当的数据库列的程序。自己编写一个应用程序来做这件事可能是最好的。如果您是 Windows 用户,您可以使用 C# (http://www.microsoft.com/visualstudio/eng/products/visual-studio-2010-express) 和 MSSQL Express (http://www.microsoft.com/en-us/download/details.aspx?id=29062)。这是一个有用的解析资源 (Modify CSV Parser to work with TSV files C#)。这是用于将行插入 MSSQL 的资源 (How to insert data into SQL Server)
【讨论】:
同意 Dan 的观点,应该将此类数据加载到数据库中并在其上运行查询。一个方便的工具是DB Browser for SQLite。您可以将 csv、tsv 文件作为表导入其中并在其上运行 SQL 查询。它使用 sqlite 下划线并支持大多数 SQL 函数。也适用于 Mac 和 Windows。
【讨论】: