【发布时间】:2021-03-22 01:45:50
【问题描述】:
我正在转换一个 csv 文件。 csv 的简短内容是这样的:
<div class="post-body entry-content" id="post-body-5981440554017350027">
<center><script async="" src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
如您所见,id="post-body-5981440554017350027"> 之后引入了一个新行
我用来将 CSV 转换为 JSON 的代码是:
import pandas as pd
csv_file = pd.DataFrame(
pd.read_csv("file.csv", sep=",", header=0,
index_col=False, encoding='utf-8-sig'))
csv_file.to_json("newJsonfile.json", orient="records", date_format="epoch",
double_precision=10, force_ascii=True, date_unit="ms",
default_handler=None)
转换为 JSON 后,每行都会引入一个新的 \n。这就是我的意思:
<div class=\"indirectlink\" id=\"post-body-5981440554017350027\">\n<center><script async=\"\" src=\"https://pagead2
是否可以避免 \n 字符并按照 CSV 中的形式进行转换?
【问题讨论】:
-
那根本不是 CSV。看起来您正在阅读 HTML。 CSV 代表逗号分隔值;显然,您在此输入中没有任何逗号分隔值。
-
您希望生成的 JSON 包含什么内容?这里没有字段,因此我们无法从此输入生成明显的结构。
-
如果我粘贴了 CSV,那么您可能会认为它是垃圾邮件。所以,我猜只有一部分是好的