如何使用 Keras 创建 NLP 处理管道答案

【问题标题】：How to create an NLP processing pipeline with Keras如何使用 Keras 创建 NLP 处理管道
【发布时间】：2021-01-18 15:50:24
【问题描述】：

我经常使用 scikit-learn 管道来简化模型处理，我想知道在 Tensorflow 2.0 中使用 Keras 做类似事情的最简单方法。

我想做的是将 Keras 模型部署为 API 端点，然后将一段文本以 numpy 数组形式提交给它，并对其进行标记、填充和预测。但我不知道这样做的最短路径。

这里有一些示例代码：

from tensorflow import keras
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, Dense, Flatten
import numpy as np

sample_words = [
'The sky is blue',
'The sky delivers us many gifts',
'Wise men appreciate gifts for what they are, not what they are not',
'Wherever you go, there you are',
'Don\'t pass judgment onto others, or you will quickly be judged yourself'
]

y = np.array([1, 0, 1, 1, 0])

tokenizer = Tokenizer(num_words=10)
tokenizer.fit_on_texts(sample_words)

train_sequences = tokenizer.texts_to_sequences(sample_words)

train_sequences = pad_sequences(train_sequences, maxlen=7)
  mod = Sequential([
  Embedding(10, 2, input_length=7),
  Flatten(),
  Dense(3, activation='relu'),
  Dense(1, activation='sigmoid')
])

mod.compile(optimizer='adam', loss='binary_crossentropy')
mod.fit(train_sequences, y)

这个想法是，如果我有一个网络表单并且有人提交了一个带有“今天的天空很漂亮”的表单，我可以将它包装在一个 numpy 数组中，将它发送到端点（将在 Google 上设置） Cloud)，并对其进行填充、标记和预测。

在 scikit 中学习它就像：pipe = make_pipeline(tokenizer, mod)，然后从那里开始。

我感觉有一些解决方案包括td.Datasets，但我希望 keras 有一些对用户更友好的东西。

【问题讨论】：

我不太明白你的问题。您已经拥有所有必要的代码。 1。你需要标记你的文本，2。您需要将其 3 填充到模型预测中并返回结果。为什么不把这个函数放到自定义函数中呢？
@MichaelJanz 我必须在 Google Cloud 上为 API 端点部署一个保存的模型，如果保存的模型将这些处理步骤自动链接在一起会更容易（我认为）。
我也有同样的问题。你找到解决办法了吗？

标签： tensorflow keras google-cloud-platform tensorflow2.0

【解决方案1】：

Keras 很简单，无需显式构建任何管道。

Keras 模型使用 Tensorflow 后端创建计算图，可以粗略地说类似于 scikit-learn 的管道。

因此，您的mod 本身等同于具有以下操作的管道：Embedding -> Flatten -> Dense -> Dense。 mod.compile() 方法正在生成张量流计算图。

然后一切都在 model.fit() 方法中汇集在一起，您将输入插入模型（即管道），然后该方法对您的数据进行训练。

为了让标记化成为模型的一部分，可以使用TextVectorization layer。

该层具有在 Keras 模型中管理文本的基本选项。它将一批字符串（一个样本 = 一个字符串）转换为令牌索引列表（一个样本 = 整数令牌索引的 1D 张量）或密集表示（一个样本 = 表示样本令牌数据的浮点值的 1D 张量)

代码快照：

vectorize_layer = TextVectorization(
   max_tokens=max_features,
   output_mode='int',
   output_sequence_length=max_len
)
model.add(vectorize_layer)
input_data = [["foo qux bar"], ["qux baz"]]
model.predict(input_data)
>>>
array([[2, 1, 4, 0],
   [1, 3, 0, 0]])

【讨论】：

这里重要的是标记化。这样，如果有新文本进入，可以根据它适合的词库对其进行标记。
如果您想将标记化链接到您的模型，我相信这是可能的。看看Text Preprocessing tutotial。他们将vectorize_layer 直接添加到模型中。也看看Working with preprocessing layers Guide
是的，通过这种方法，您可以将整个预处理放入模型中，但这并不意味着它会使一切变得更容易。我想这取决于 OP 的目标