使用 R 将 JSON 文件转换为 CSV 文件答案

【问题标题】：Convert JSON file to a CSV file using R使用 R 将 JSON 文件转换为 CSV 文件
【发布时间】：2016-06-23 16:12:57
【问题描述】：

我有一个 .txt 文件中的 JSON 文件，我试图将其加载到 R 中，但出现以下错误：

Error in feed_push_parser(readBin(con, raw(), n), reset = TRUE) : 
  parse error: trailing garbage
      " : "SUCCESS"  }    /* 1 */  {    "_id" : "b736c374-b8ae-4e9
                 (right here) ------^

我假设错误是由于 /* (number) */ 的多个实例造成的，我无法手动将它们全部删除，因为我的文件有 10k 个实例。有没有办法在将数据加载到 R 之前删除此类实例？

我的 JSON 文件如下所示：

/* 0 */
{
  "_id" : "93ccbdb6-8947",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "93ccbdb6-8947",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 1 */
{
  "_id" : "b736c374-b8ae",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "b736c374-b8ae",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 2 */
{
  "_id" : "3312605f-8304",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1SXE",
    "queryId" : "3312605f-8304",
    "subRequests" : [{
        "origin" : "LON",
        "destination" : "IAD",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 2,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 3 */
{
  "_id" : "6b668cfa-9b79",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1NXA",
    "queryId" : "6b668cfa-9b79",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 1,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 4 */
{
  "_id" : "41c373a1-e4cb",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP6CXS",
    "queryId" : "41c373a1-e4cb",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 5 */
{
  "_id" : "2c8331c4-21ca",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "2c8331c4-21ca",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 6 */
{
  "_id" : "71a09900-1c13",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP6CXS",
    "queryId" : "71a09900-1c13",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AF",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "DL",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "LH",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "BA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 6941,
  "status" : "SUCCESS"
}

/* 7 */
{
  "_id" : "a036a42a-918b",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1MMM",
    "queryId" : "a036a42a-918b",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 8 */
{
  "_id" : "c547be36-805c",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1SXB",
    "queryId" : "c547be36-805c",
    "subRequests" : [{
        "origin" : "CHI",
        "destination" : "LON",
        "carrier" : "BA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 2,
  "requestDate" : 20151205,
  "totalRecords" : 1072,
  "status" : "SUCCESS"
}

我的代码如下（虽然我还没有走多远）：

library(jsonlite)
library(RJSONIO)
json_data_raw<-fromJSON("mydata.txt")

json_file <- lapply(json_data_raw, function(x) {
  x[sapply(x, is.null)] <- NA
  unlist(x)
})

output <-- do.call("rbind", json_file)
write.csv(a, file="json.csv",row.names = FALSE)
file.show("json.csv")

我正在尝试将我的输出转换为如下所示的 CSV 文件

【问题讨论】：

您希望如何将此嵌套结构折叠为矩形 CSV 文件？输出究竟会是什么样子？您应该在make the problem reproducible 的问题中包含示例数据。数据图片没那么有用。
fromJSON(grep('/\\*.*\\*/', readLines(mydata.txt), invert = TRUE, value = TRUE)) 摆脱了评论行，但对我来说仍然失败。
@MrFlick 感谢您的建议。我已经进行了更改。

标签： json r csv

【解决方案1】：

您的文本文件存在几个问题。正如您已经注意到的，您需要删除/* 0 */ 形式的行。什么结果仍然是无效的 json。如果你想在一个文件中有多个 json 对象，你需要将它们存储在一个数组中。 json 对象是用大括号括起来的部分，例如，

{
  "_id" : "93ccbdb6-8947-4687-8e12-edf4e40d6650",
  ...
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

对象数组的结构如下：

[
  {
    ...
  },
  {
    ...
  }
]

要使文件成形，您需要在对象之间添加逗号并添加方括号。你可以这样做：

raw <- readLines("mydata.txt")

# get rid of the "/* 0 */" lines
json <- grep("^/\\* [0-9]* \\*/", raw, value = TRUE, invert = TRUE)

# add missing comma after }
n <- length(json)
json[-n] <- gsub("^}$", "},", json[-n])

# add brakets at the beginning and end
json <- c("[", json, "]")

这可以被fromJSON()读取，所以我认为它是有效的json：

library(jsonlite)
table <- fromJSON(json)

表格是嵌套的，即某些表格单元格本身包含数据框或列表。例如，

table[1,2]
##   travelDate travelDuration shopperDuration oneWay  userId                              queryId
## 1   20151206              7              30  FALSE ATP1KKP 93ccbdb6-8947-4687-8e12-edf4e40d6650
##               subRequests
##     1 WAS, LON, AA, , 1,2

您可以使用 jsonlite 包中的 flatten() 来获得一个嵌套较少的表格

flatten(table)[1:3, c(1, 6, 12)]
##                                    _id uiSearchRequest.travelDate uiSearchRequest.subRequests
## 1 93ccbdb6-8947-4687-8e12-edf4e40d6650                   20151206         WAS, LON, AA, , 1,2
## 2 b736c374-b8ae-4e99-8073-9c54517fecd5                   20151206         WAS, LON, AA, , 1,2
## 3 3312605f-8304-4ab8-96d6-6e1a03cfbd9e                   20151206         LON, IAD, AA, , 1,2

最后一列仍然是一个列表。有很多方法可以处理这个问题。一种可能性是为每个子请求创建一行，其中重复所有其他列（X_id、downloadCount 等）的内容。（这几乎是您在问题中给出的形式，唯一的区别是您将重复列中的单元格留空，而我重复内容。）这是可以做到的：

table <- flatten(fromJSON(json))
tab_list <- lapply(1:nrow(table),
                  function(i) data.frame(table[i, -12], table[i, 12],
                              stringsAsFactors = FALSE))
library(dplyr)
flat_table <- bind_rows(tab_list)

第二行创建一个数据框列表。这些使用来自dpylr 的bind_rows() 组合成一个数据框。（更准确地说，flat_table 将是 tbl_df，但与 data.frame 的差异很小。）然后可以按照通常的方式将其写入 csv 文件：

write.csv(flat_table, file = "mydata.csv")

【讨论】：

效果很好@Stibu，谢谢，但它是解决方案的一部分！我在将表的内容导出到 .csv 或 .xlsx 文件时遇到问题。你知道我应该如何解决这个错误吗？ .jcall(cell, "V", "setCellValue", value) 中的错误：带有签名的方法 setCellValue ([Ljava/lang/String;)V not found 另外：警告消息：在 if (is.na(value)) { : 条件长度 > 1 并且只使用第一个元素
flatten(table) 的结果确实不能用write.csv() 写入 csv 文件，因为该函数无法处理数据框的一列是列表的事实。我添加了几行代码，以确保您确实获得了可以写入 csv 文件的单个数据帧。
我不熟悉您评论中的错误消息。由于它提到了 Java，我假设您正在使用一些包来创建 Excel 文件。因此，您可能对如何使用该软件包有疑问。也许问题也是数据框中包含的列表，一旦您使用我提供的附加代码，问题就会消失。如果没有，您应该在创建 Excel 文件时就您的问题提出一个新的具体问题（在您搜索 SO 以检查该问题是否已经被问过之后，当然......）
当我运行 tab_list
好吧，显然table <- fromJSON(json) 不起作用，因为您收到了一条错误消息，而table <- flatten(fromJSON(json)) 是不会出现的。我的答案中的代码给出了与您的编辑相同的结果（除了列名和行的顺序），但要简单得多。

【解决方案2】：

在 Python 中非常简单：

import pandas as pd
data = pd.read_json(path_to_input_file)
data.to_csv(path_to_csv_output_file)

【讨论】：

该问题要求在 R 中解决，而不是在 Pyton 中。
刚才我正在使用 R 将 JSON 转换为 CSV。但是，我仍然在为上述建议而苦苦挣扎，并使用 Pandas 找到了一些很酷的解决方案。所以想在这里分享一下。 :)