Pandas read_csv 错误标记来自 Gutenberg 项目的文本答案

【问题标题】：Pandas read_csv error tokenizing text from Gutenberg projectPandas read_csv 错误标记来自 Gutenberg 项目的文本
【发布时间】：2019-07-11 17:03:27
【问题描述】：

我正在尝试使用古腾堡项目中的一本书创建一个 Python 词云。

如果我选择儒勒·凡尔纳 (Jule Verne) 的书 A Journey to the Centre of the Earth 并下载纯文本 UTF-8 文件，我在使用 read_csv 时会收到来自 pandas 的错误。

这是我正在使用的代码：

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息：

pandas.errors.ParserError：数据标记错误。 C 错误：预期 14 第 176 行中的字段，看到 15

我在 pd.read_csv 中尝试了几个选项，但我无法解析文本。

【问题讨论】：

标签： python pandas

【解决方案1】：

Pandas 专为结构化数据而设计。这意味着组织成行和列的东西，如电子表格或矩阵。它会尝试一个文本文件，但松散的文本过于杂乱无章，Pandas 无法解析。

您可能想要做的是将其拆分为一个句子列表，然后将该列表提供给 Pandas。

这是一个简单的例子：

with open('pg18857.txt') as f:
    content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content] 
df = pd.DataFrame(content)

【讨论】：