【问题标题】:using mmap() to search large file (~1TB)使用 mmap() 搜索大文件 (~1TB)
【发布时间】:2016-02-28 07:14:59
【问题描述】:

我正在开发一个项目,该项目试图在文件系统(例如 ext2)中搜索特定字节(例如 0xAB)。我能够使用malloc()realloc()memchr() 找到我需要的东西,但它似乎很慢,所以我正在考虑使用mmap()。我想做的是找到一个特定的字节,然后将它们复制到一个结构中,所以我有两个问题:(1)使用mmap()是最好的策略,(2)为什么下面的代码不起作用(我收到 EINVAL 错误)?

更新:以下程序编译并运行,但我仍然有几个问题:
1) 它不会在大文件上显示正确的文件大小(对于 1GB 闪存驱动器显示正确的大小,但对于 32GB 则不正确)*。
2) 没有正确搜索映射**。

*THIS 是使用stat64() 获得正确尺寸的可能解决方案吗?如果是这样,是我在 Makefile 中添加的内容吗?我没有经常使用makefile,所以我不知道如何添加类似的东西。
**这甚至是正确的搜索方式吗?

#define _LARGEFILE64_SOURCE

#include <stdio.h>
#include <fcntl.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <unistd.h>
#include <errno.h> 
#define handle_error(msg) \
do { perror(msg); exit(EXIT_FAILURE); } while (0)

int main(int argc, char **argv) {

    int fd = open("/dev/sdb1", O_RDONLY); 

    if(fd < 0) {
        printf("Error %s\n", strerror(errno));
        return -1;
    }

    const char * map;   

    off64_t size;
    size = lseek64(fd, 0, SEEK_END);
    printf("file size: %llu\n", size);
    lseek64(fd, 0, SEEK_SET);    

    map = mmap(0, size, PROT_READ, MAP_SHARED, fd, 0); 
    if (map == MAP_FAILED) { handle_error("mmap error"); }

    printf("Searching for magic numbers...\n");
    for (i=0; i < size; i++) {
    if(map[i] == 0X53 && map[i + 1] == 0XEF) {  
        if ((map[i-32] == 0X00 && map[i-31] == 0X00)  ||            
            (map[i-32] == 0X01 && map[i-31] == 0X00)  ||
            (map[i-32] == 0X02 && map[i-31] == 0X00)) {
            if(j <= 5) { 
                printf("superblock %d found\n", j);
                ++j; 
            } else break;

    int q;
    for(q=0; q<j; q++) {
        printf("SUPERBLOCK[%d]: %d\n", q+1, sb_pos[q]);
    }

    fclose(fd);
    munmap(map, size);
    return 0;
}

感谢您的帮助。

【问题讨论】:

  • 您应该检查 errno 变量以了解 mmap 失败的原因
  • 你读过THIS的问题吗?
  • 它可能会失败,因为它找不到您请求的长度的连续内存条(size)。
  • 您的所有资源限制设置为多少?特别是最大虚拟内存? (ulimit -v, IIRC) 另外,size 的回报是什么?它是否有意义并与您的磁盘大小相匹配?
  • @Shark 如果程序无法找到连续的内存,那么在搜索整个文件系统之前最好使用malloc()realloc() X 字节?

标签: c linux mmap


【解决方案1】:

mmap 是处理搜索大文件的一种非常有效的方法,尤其是在您可以使用内部结构的情况下(例如,在具有固定大小的已排序记录的大文件上使用 mmap 将允许您进行二分查找,只触及读取记录对应的页面)。

在您的情况下,您需要编译 64 位并启用大文件支持(并使用 open(2))。

如果您的/dev/sdb1 是设备而不是文件,我认为stat(2) 不会显示实际大小。 stat 为我的盒子上的这些设备返回 0 的大小。我认为您需要以另一种方式获得尺寸。

关于地址空间:x86-64 使用 2^48 字节的虚拟地址空间,即 256 TiB。您不能使用所有这些,但在大多数进程中很容易有 ~127 TiB 的连续地址空间。

【讨论】:

  • 是的,/dev/sdb1 将是一个设备,程序在 64 位 Ubuntu 机器上运行。如果我在 32GB USB 驱动器上使用以下内容,我会得到 1493172224:int fd = open("/dev/sdb1", O_RDONLY | O_LARGEFILE); ... off_t size; size = lseek64(fd, 0, SEEK_END); rewind(fd);
【解决方案2】:

我刚刚注意到我使用的是 fopen(),我应该改用 open() 吗?

是的,您应该使用 open() 而不是 fopen()。这就是您收到 EINVAL 错误的原因。

fopen("/dev/sdb1", O_RDONLY);

此代码完全不正确。 O_RDONLY 是应该与 open() 系统调用一起使用但不能与 fopen() libc 函数一起使用的标志

您还应该注意,只有在具有大虚拟地址空间的平台上运行时,才能使用大文件的映射。很明显:您应该有足够的虚拟内存来寻址您的文件。说到Intel,应该只有x86_64,而不是x86_32。

我没有尝试对非常大的文件 (>4G) 执行此操作。可能需要将一些额外的标志传递给 open() 系统调用。

【讨论】:

    【解决方案3】:

    我正在开发一个项目,该项目试图在文件系统(例如 ext2)中搜索特定字节(例如 0xAB)

    在您的情况下,将大文件放入内存中是完全错误的方法。您只需要按固定大小(大约 1MB)的块逐步处理您的文件。您可以使用 mmap() 或只是将其 read() 到您的内部缓冲区中 - 没关系。但是,如果您只想按顺序处理它,将整个文件放入内存完全是大材小用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-11-05
      • 2018-05-08
      • 2012-10-03
      • 2023-03-21
      • 2012-03-10
      相关资源
      最近更新 更多