从 .csv 文件中读取数据答案

【问题标题】：reading data from a .csv file从 .csv 文件中读取数据
【发布时间】：2019-09-17 15:08:01
【问题描述】：

所以我有一个 NLP 问题的数据集，其中包含以下格式的数据：代码、正文、结果

2552272216,蜂蜜能把黑发变成白发吗,[白发]

2552210209,"您好医生，我妈妈36岁时被诊断出患有抑郁症，原因是过度思考家庭问题，导致她的抑郁症引发了其他几个心理问题，使她的病情恶化导致脑中风她去世了。现在我的问题是，它是否会在某个时候发生在我身上或我姐姐身上。",[抑郁]

使用 pd.read_csv 我使用 ',' 作为分隔符读取这些行，但我希望将最后一列作为列表而不是字符串读取。请帮忙！

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import json
# Importing the dataset
dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True)

【问题讨论】：

How to read a column of csv as dtype list using pandas?的可能重复

标签： python pandas machine-learning nlp

【解决方案1】：

从 Pandas 文档看来，您需要设置 data 参数。

dtype ：类型名称或列的字典 -> 类型，可选数据或列的数据类型。例如。 {‘a’: np.float64, ‘b’: np.int32, ‘c’: ‘Int64’} 使用 str 或 object 以及适当的 na_values 设置来保留而不是解释 dtype。如果指定了转换器，它们将被应用而不是 dtype 转换。

例如：

dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True,
                     dtype={'code': str, 'body': str, 'result': list()})

【讨论】：

TypeError: dtype |V0 不支持解析