【问题标题】:Directly reading from a file to BufReader's or Cursor's underlying buffer直接从文件读取到 BufReader 或 Cursor 的底层缓冲区
【发布时间】:2015-02-20 07:38:08
【问题描述】:

我正在尝试找出 Rust 中的一些基本内容。

我想创建一个工具,它可以从文件中读取 512 个字节,并将这些字节复制到另一个文件中。然后从输入文件中取出接下来的 8 个字节并跳过它们。然后从输入文件中取出接下来的 512 个字节,并将它们复制到输出文件,然后跳过 8 个字节,等等......

我需要这个工具快速,所以我不能每 512 字节执行一次 I/O 调用。我想我需要先读取几兆字节的输入文件,然后通过有选择地将其复制到另一个内存块来删除内存中不需要的 8 字节块,然后调用 I/O 写入将更大的内存块转储到一次。

所以,我想做这样的事情(伪代码):

let buffer = buffer of 'u8' of size 4MB;
let buffer_out = buffer of 'u8' of size 4MB;

// both buffers above take 8MB of memory

let input_stream = InputStream(buffer);
let output_stream = OutputStream(buffer_out);

for(every 4MB block in the input file) {
    input.read(buffer); // read the 4MB block into 'buffer'
    input_stream.seek(0); // reset the input stream's cursor to offset 0

    for(every 520 byte inside the 4MB block in 'buffer') {
        output_stream.write(input_stream.read(512)); // copy important 512 bytes
        input_stream.read(8);                        // skip superfluous 8 bytes
    }

    output.write(buffer_out);
}

我在 Rust 中遇到的问题是我正在尝试使用 Cursor 对象来实现对两个缓冲区的流式访问。例如,我正在像这样在堆上分配缓冲区:

let mut buf: Box<[u8; BUF_SIZE]> = Box::new([0; BUF_SIZE]);

然后我正在创建一个光标以流模式访问此数组:

let mut rd_cursor: Cursor<&[u8]> = Cursor::new(buf.as_slice());

但是,我现在不知道如何从输入文件中读取数据。 bufCursor 使用,所以我无法访问它。在 C++ 中,我只需将数据读取到 buf 并完成它。而Cursor 似乎没有实现任何可以被BufReader.read() 直接使用的东西,我用它来从输入文件中读取数据。

也许我可以通过创建另一个缓冲区来使其工作,通过光标从“输入”读取数据到临时缓冲区,从临时缓冲区到“buf”,但这会导致不断重新复制内存,我想避免。

我可以看到Cursor 中有一个fill_buf 函数,但它似乎只返回对底层缓冲区的只读引用,所以我无法修改缓冲区,因此对我的情况没用。

我也尝试过使用BufReader 而不是Cursor。这是我的第二次尝试:

let mut rd_cursor: BufReader<&[u8]> = BufReader::new(&*buf);

BufReader&lt;R&gt; 包含get_mut 返回R,所以我认为在我的情况下它应该返回&amp;[u8],这听起来是件好事。但是通过使用&amp;[u8]get_mut 抱怨我需要传递一个可变的东西作为R。所以我这样改变它:

let mut rd_cursor: BufReader<&mut [u8]> = BufReader::new(&mut *buf);

但 Rust 不允许我这样做:

src\main.rs|88 col 47| 88:61 error: the trait `std::io::Read` is not implemented for the type `[u8]` [E0277]
|| src\main.rs:88     let mut rd_cursor: BufReader<&mut [u8]> = BufReader::new(&mut *buf);

任何人都可以打我的头来纠正我对这里发生的事情的理解吗?

【问题讨论】:

  • 你知道 BufReader 已经缓冲了吗?您可以简单地将容量设置为几兆字节,然后在 512 字节 + 8 字节读取周期上工作。
  • 另外,你不能读取一个未调整大小的数组,因为 rust 不知道你想要多少字节。我不确定你是否可以这样做&amp;mut [u8, BUF_SIZE],但你需要那样的东西。
  • @ker:实际上这应该正是我所需要的:改变设计;)。我已经深深地过度思考了这个问题,现在我因此而遇到了问题。请复制它作为答案,我会接受它。

标签: rust


【解决方案1】:

BufReader 已经缓冲读取。引用文档:

包装一个读取并缓冲来自它的输入

直接使用 Read 实例可能效率极低。例如,对 TcpStream 的每次读取调用都会导致系统调用。 BufReader 对底层 Read 执行大量、不频繁的读取,并维护结果的内存缓冲区。

您可以简单地将容量设置为几兆字节,然后使用 512 + 8 字节的读取周期。 BufReader 只会在你用完缓冲区时进行实际的系统调用。


以下错误

错误:特征 std::io::Read 未针对类型 [u8] [E0277] 实现

是因为 rust 不知道你想要多少字节。 [u8] 是一个未调整大小的数组。我不确定你是否可以做&amp;mut [u8, BUF_SIZE],但你需要一些类似的东西

【讨论】:

    猜你喜欢
    • 2011-07-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多