【发布时间】:2021-11-16 23:10:36
【问题描述】:
目前,我只得到一排。我怎样才能得到所有的单词?目前,我有一列单词。词干分析器中的问题。它只给出一行而不是所有单词。
我的目的是清理数据并打印用逗号分隔的所有单词。
输入:word1,word2,word3,word4,word5 在每一行在列df[tag]
输出将是一个长列表,包含所有值 word1,word2,word3,word4,word5,word6,word7....
from nltk.corpus import stopwords
import re
from nltk.stem import PorterStemmer
import pandas as pd
import spacy
import pytextrank
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
def Clean_stop_words(data):
#print(stopwords.words('english'))
stop_words=stopwords.words('english')
new_data=""
for word in data:
np.char.lower(word)
if word not in stop_words:
new_data = data + " , " + word
print(new_data)
symbols = "!\"#$%&()*+-./:;<=>?@[\]^_`{|}~\n"
for i in symbols:
new_data = np.char.replace(new_text, i, ' ')
#print(data)
stemmer=PorterStemmer()
new_data=stemmer.stem(word)
#print(new_data)
Clean_stop_words(df["Tag"])
#print(data)
提前谢谢你
【问题讨论】:
-
举例说明您的输入和预期输出
-
已添加到帖子中
标签: python pandas dataframe numpy stemming