【发布时间】:2020-05-22 21:18:26
【问题描述】:
我是python的新手,已经开始处理文本数据了。
我想在数据框中添加一列,将其与不同列中提到的条件进行比较并相应地填充。
数据集有 10000 行,我通过抽取 2000 行的随机样本来缩短它。
我想包含名为“Review Sentiment”的新列,如果 review.rating 为 >3,则将其中的单元格填充为 1,如果 review.rating =
这是我尝试过的。
代码:
Dataset = pd.read_csv('Datafiniti_Hotel_Reviews.csv')
Dataset_sample = Dataset.sample(n = 2000)
Dataset_sample.head()
i=0
for i in range(len(Dataset_sample.axes[0])):
if(Dataset_sample['reviews.rating'] < 3):
Dataset_sample.insert(len(Dataset_sample.axes[1],"Test",1))
else:
Dataset_sample.insert(len(Dataset_sample.axes[1],"Test",0))
错误:
ValueError:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。
数据集:从数据集中提取。请帮助使用数据集中的这些列。逻辑将保持不变。
ID province reviews.rating
----------------------------
1 CA 5
7 ST 4
3 DL 4
6 YT 5
5 JD 1
【问题讨论】:
-
请张贴可以复制的数据样本,而不是图片。
-
Dataset_sample['Test'] = Dataset_sample['reviews.rating'].lt(3).astype(int). -
另外,你可能想做
Dataset_sample = Dataset.sample(n=2000).copy()。 -
请provide a reproducible copy of the DataFrame with
df.head(10).to_clipboard(sep=',')。 Stack Overflow Discourages Screenshots。这个问题很可能会被否决。您不鼓励提供帮助,因为没有人愿意重新输入您的数据或代码,而且屏幕截图通常难以辨认。 -
我从数据集中放了一个 sn-p。希望对您有所帮助。
标签: python pandas nlp sentiment-analysis