【问题标题】:Sampling Large Data Files采样大数据文件
【发布时间】:2010-04-01 18:46:01
【问题描述】:

我目前担任数据仓库程序员的职位,因此必须通过 ETL 流程放置大量平面文件。当然,在加载文件之前,我必须了解它的内容,问题是大多数文件都大于 1 GB,我无法使用我亲爱的老朋友“记事本”打开它们。开玩笑。我通常使用 VIM 或 Notepad++,但打开文件仍然需要一段时间。我可以使用 VIM 或其他编辑器对文件执行“部分”读取吗?

附:我知道我可以编写一个 10 行脚本来“数据样本”文件,但是说服团队成员使用编辑器的功能比我编写的脚本更简单。

感谢您提供的任何见解。

【问题讨论】:

    标签: editor text-editor flat-file


    【解决方案1】:

    如果您想坚持使用 vim,可以查看 LargeFile 脚本。

    另外,我一直发现UltraEdit 打开大文件的速度非常快。

    【讨论】:

    • 这是一个很好的建议!谢谢!
    【解决方案2】:

    你说你有VIM,这让我想知道你是否也有unix环境?

    如果您愿意,您可以通过 unix 实用程序 top 管道输入并在屏幕上显示原始输入。像这样:

    编辑:(感谢 Honk)

    terminal$> head -N 15 file.csv

    (其中 15 表示您只想查看 15 行)。

    【讨论】:

    • 不确定 top 在大型机 Unix 中是否特殊,但在 Linux 上,您可以通过管道输入 head -n 15
    • 或者你甚至可以用head -n 15 file.csv避免不必要的cat。这也应该快几个数量级。
    • 谢谢,但我只是 UNIX 的忠实粉丝,我们的环境是建立在 MS 堆栈上的。
    • @a_person - 作为 UNIX 的粉丝,但在 Microsoft 上,您可能会喜欢 CYGWIN!不过,这是一个离题的建议。 :)
    • 我非常感谢这个建议,并实际安装了它:)。
    【解决方案3】:

    很确定有很多类似的问题,但是,Textpad 是个不错的选择。

    【讨论】:

    • 已验证并确认。 Textpad 对我来说在 6 秒内完美打开了一个 1.3 GB 的文件(尽管保存它需要的时间要长得多)。
    【解决方案4】:

    使用 head 命令。

    【讨论】:

      【解决方案5】:

      在 solaris 上使用“less”...在 windows 上通过 cygwin 使用相同的。在大型机上不会出现这个问题,ISPF 编辑器处理得很好。

      【讨论】:

      • CYGWIN 也处理 lesstop
      【解决方案6】:

      UltraEdit 声称可以处理超过 4GB 的文件...

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2021-08-08
        • 1970-01-01
        • 1970-01-01
        • 2016-10-16
        • 2023-01-24
        • 2015-09-06
        • 2015-02-20
        相关资源
        最近更新 更多