【发布时间】:2021-04-17 04:42:51
【问题描述】:
我在 pandas 中有一些数据想用于命名实体识别。数据样本如下
text
['Angie', '’s', 'is', 'my', 'favorite', 'but', 'the', 'prices', 'at', 'little', 'Tonys', 'are', 'better', '.']
tags
['B-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'O', 'O']
我在数据上运行了sklearn.model_selection import train_test_split
# split data
train_texts, test_texts, train_tags, test_tags = train_test_split(dataset["text"].tolist(),
dataset["tags"].tolist(),
test_size=0.20,
random_state=15)
但是,当我尝试打印列表时,它给了我一些奇怪的行为,具体来说,它会将文本和标签周围的方括号 [] 和引号 '' 作为测试和标签的一部分。比如我写的时候
print(train_texts[0][0:9], train_tags[0][0:9], sep='\n')
output
['Angie',
['B-ORG',
我的问题是,为什么将括号和引号字符计为字符串的一部分?我该如何解决?
【问题讨论】:
标签: python-3.x pandas string sklearn-pandas