【问题标题】:PDF File Import RPDF 文件导入 R
【发布时间】:2018-07-12 12:23:39
【问题描述】:

我有多个 .pdf 文件(存储在本地文件夹中),其中包含文本。我想在 R 中导入 .pdf 文件(即文本)。我应用了函数“read_dir”(R 包:[textreadr][1]

library ("textreadr")
Data <- read_dir("<MY PATH>")

该功能运行良好。但。对于多个在其名称中包含特殊字符(即字母)的文件(例如'ć';例如'filenameć.pdf'),函数不起作用(错误消息:'The following files failed to read in and were removed:' ...)。

我能做什么?

我尝试通过 R重命名文件不起作用(可能是由于相同的原因))。这可能是一种解决方法。

我不想手动重命名文件:)

跟进(仅限专家): 对于几个文件,我收到以下错误消息之一(我不知道为什么):

PDF error: Mismatch between font type and embedded font file

PDF error: Couldn't find trailer dictionary

有什么建议或提示如何解决这个问题?

【问题讨论】:

    标签: r pdf text import


    【解决方案1】:

    问题可能与文件名的编码有关。如果你绝对想用R给你重命名文件,你要使用的函数是iconv,确定文件名的编码,然后将它们转换为utf-8。

    但是,更好的系统意味着使用 bash 从命令行重命名它们。能提供更完整的例子吗?

    【讨论】:

    猜你喜欢
    • 2020-10-25
    • 1970-01-01
    • 2018-03-16
    • 2019-07-30
    • 2012-07-24
    • 2019-03-06
    • 2013-06-13
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多