【发布时间】:2021-01-15 09:23:39
【问题描述】:
我获得了出租车客户何时何地进入他的车辆的信息。现在我想预测他想在哪条街上开车。我的数据集如下所示:
示例
日、时、分、入口、目的地(标签)
星期一,10 日,45 日,ExampleStreet,StackOverflowCorner(未预处理)
0、10、45、0、1(预处理)
转换如下:
现在我像这样预处理我的数据集:
Day -> 0-6 之间的数字(0 星期一,1 星期二 ...)
小时 -> 0-24 的欧洲格式
分钟 -> 无预处理
入口 -> 我使用了 LabelEncoder (0 ExampleStreet, 1 ExampleCorner ...)
目的地 -> 与带有标签编码器的入口相同
我得到了 98 个可能的目的地、相同数量的入口和大约 700 个样本。 我已经使用过 Tensorflow,但验证准确度仅接近 0。
model = keras.Sequential([
tf.keras.layers.Dense(100, activation='relu'),
keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.4),
tf.keras.layers.Dense(100, activation='relu'),
tf.keras.layers.Dropout(0.3),
tf.keras.layers.Dense(98,activation="softmax")
])
optimizer=keras.optimizers.RMSprop()
model.compile(optimizer=optimizer, loss=tf.keras.losses.sparse_categorical_crossentropy, metrics=['accuracy'])
问题
我是否正确地预处理了我的数据?我需要热编码还是收集更多样本?另一种算法可能更有效(树?)?
提前谢谢...
【问题讨论】:
标签: tensorflow keras data-preprocessing