【发布时间】:2020-03-10 09:30:34
【问题描述】:
我是 TensorFlow 和机器学习的新手。我在编写一个 tensorflow 代码时遇到了问题,该代码执行的文本分类类似于我尝试使用 sklearn 库的一个。我在矢量化数据集和向 tensorflow 层提供输入方面面临重大问题。
我确实记得在一次对标签进行热编码时成功,但前面的 tensorflow 层不接受创建的数组。 请注意,我已经阅读了大多数关于 stackoverflow 的文本分类回答问题,但它们过于具体或需要解决复杂的问题。 我的问题案例太窄,需要非常基本的解决方案。
如果有人能告诉我类似于我的 sklearn 机器学习算法的步骤或 tensorflow 代码,那将是非常有帮助的。
使用的数据集位于:https://www.kaggle.com/virajgala/classifying-text
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
#Reading the csv dataset
df = pd.read_csv(('/Classifyimg_text.csv'), index_col=False).sample(frac=1)
#Splitting the dataset
train_data, test_data, train_labels, test_labels = train_test_split(df['sentence'], df['label'], test_size=0.2)
#Vectorization and Classification
streamline = Pipeline([('vect', TfidfVectorizer(max_features=int(1e8))),
('clf', SGDClassifier())]).fit(train_data, train_labels)
#Prediction
Output = streamline.predict(["This is my action to classify the text."])
【问题讨论】:
标签: python tensorflow machine-learning scikit-learn text-classification