如何有效地读取大型且不断增长的文件答案

【问题标题】：How to read a large, and growing, file efficiently如何有效地读取大型且不断增长的文件
【发布时间】：2020-10-21 16:41:54
【问题描述】：

现有应用程序在运行时不断写入输出文件。我希望能够在另一个 (C++) 应用程序中逐行读取此文件以进行外部处理。

一个现实的场景是现有应用程序已经运行了一段时间。我的新应用程序启动并通过输出文件工作，“赶上”最近的条目。然后等待新行写入文件。

我确实不需要 需要解析整个文件，只需逐行读取它 - 它不是 XML 或 JSON 或类似的东西。由于文件可能非常大，我绝对不想将其全部加载到内存中。自从我在 C++ 中从事低级文件访问以来已经有很长时间了，所以我的问题是：

我知道这可以在操作系统级别完成，但我不确定这是如何通过标准库中的 C++ API 公开的。

【问题讨论】：

这能回答你的问题吗？ Implement "tail -f" in C++
你想对文件做什么？逐行阅读但不解析 - 你会丢弃这些行吗？目前尚不清楚最终目标是什么。
只要写作应用创建具有写入权限和读取共享的文件，而阅读应用以只读访问权限打开文件，您应该可以。就我而言，我有一个写入日志文件的服务，以及一个实时显示日志的查看器。我使用文件的内存映射视图来快速访问数据，并让服务在写入新数据时通知查看器，以便查看器可以映射和显示它，但在这种情况下，这些不是严格要求。
@SergeyA 我不确定这是否重要，但我稍微编辑了一下......基本上在定制逻辑中处理每一行
@Botje 我不确定。没有公认的答案，评价很高的答案基本上是说要按照我的要求做，但不是如何做。所以我不认为这是一个骗局

标签： c++ file

【解决方案1】：

在逐行读取不断增长的文件时需要注意几个问题：

您需要编写自己的getline：

读入一个固定长度的缓冲区，该缓冲区必须至少与生产者可以写入的最长行一样大。使用特定于平台的函数，例如 POSIX read，这样您就不需要在 ifstream 或 FILE* 上不断清除 EOF 状态。
在缓冲区中找到完整的行并将它们传递给调用者。不完整的行被移到缓冲区的开头，随后的read 读取该不完整的行。
当EOF 与read 匹配时，使用特定于平台的方式（如inotify）等待文件增长。如果没有竞争条件，这可能很难实现，因此您可能希望在合理的超时后重试读取文件。转到 1。

【讨论】：