【问题标题】:reading data from a .csv file从 .csv 文件中读取数据
【发布时间】:2019-09-17 15:08:01
【问题描述】:

所以我有一个 NLP 问题的数据集,其中包含以下格式的数据: 代码、正文、结果

2552272216,蜂蜜能把黑发变成白发吗,[白发]

2552210209,"您好医生,我妈妈36岁时被诊断出患有抑郁症,原因是过度思考家庭问题,导致她的抑郁症引发了其他几个心理问题,使她的病情恶化导致脑中风她去世了。现在我的问题是,它是否会在某个时候发生在我身上或我姐姐身上。",[抑郁]

使用 pd.read_csv 我使用 ',' 作为分隔符读取这些行,但我希望将最后一列作为列表而不是字符串读取。 请帮忙!

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import json
# Importing the dataset
dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True)

【问题讨论】:

标签: python pandas machine-learning nlp


【解决方案1】:

从 Pandas 文档看来,您需要设置 data 参数。

dtype :类型名称或列的字典 -> 类型,可选 数据或列的数据类型。例如。 {‘a’: np.float64, ‘b’: np.int32, ‘c’: ‘Int64’} 使用 str 或 object 以及适当的 na_values 设置来保留而不是解释 dtype。如果指定了转换器,它们将被应用而不是 dtype 转换。

例如:

dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True,
                     dtype={'code': str, 'body': str, 'result': list()}) 

【讨论】:

  • TypeError: dtype |V0 不支持解析
猜你喜欢
  • 2014-01-07
  • 1970-01-01
  • 2019-05-03
  • 2023-03-04
  • 2018-11-12
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多