【问题标题】:Pandas read_csv error tokenizing text from Gutenberg projectPandas read_csv 错误标记来自 Gutenberg 项目的文本
【发布时间】:2019-07-11 17:03:27
【问题描述】:

我正在尝试使用古腾堡项目中的一本书创建一个 Python 词云。

如果我选择儒勒·凡尔纳 (Jule Verne) 的书 A Journey to the Centre of the Earth 并下载纯文本 UTF-8 文件,我在使用 read_csv 时会收到来自 pandas 的错误。

这是我正在使用的代码:

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息:

pandas.errors.ParserError:数据标记错误。 C 错误:预期 14 第 176 行中的字段,看到 15

我在 pd.read_csv 中尝试了几个选项,但我无法解析文本。

【问题讨论】:

    标签: python pandas


    【解决方案1】:

    Pandas 专为结构化数据而设计。这意味着组织成行和列的东西,如电子表格或矩阵。它会尝试一个文本文件,但松散的文本过于杂乱无章,Pandas 无法解析。

    您可能想要做的是将其拆分为一个句子列表,然后将该列表提供给 Pandas。

    这是一个简单的例子:

    with open('pg18857.txt') as f:
        content = f.readlines()
    # Remove whitespace characters like `\n` at the end of each line
    content = [x.strip() for x in content] 
    df = pd.DataFrame(content)
    

    【讨论】:

      猜你喜欢
      • 2016-12-12
      • 2021-01-31
      • 2013-10-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-06-02
      • 2017-08-09
      • 1970-01-01
      相关资源
      最近更新 更多