Sagemaker Pytorch 模型 - 调用 InvokeEndpoint 操作时发生错误（InternalFailure）（达到最大重试次数：4）：答案

【问题标题】：Sagemaker Pytorch model - An error occurred (InternalFailure) when calling the InvokeEndpoint operation (reached max retries: 4):Sagemaker Pytorch 模型 - 调用 InvokeEndpoint 操作时发生错误（InternalFailure）（达到最大重试次数：4）：
【发布时间】：2021-04-09 11:11:46
【问题描述】：

我在调用 Pytorch 模型端点时遇到问题。请检查以下错误以了解详细信息。

错误信息：

调用 InvokeEndpoint 操作时发生错误 (InternalFailure)（达到最大重试次数：4）：向模型发送请求时发生异常。有关请求 9d4f143b-497f-47ce-9d45-88c697c4b0c4，请联系客户支持。

出现此错误后自动重新启动端点。没有特定的登录云手表。

【问题讨论】：

标签： amazon-web-services amazon-sagemaker

【解决方案1】：

这里可能存在一些问题，我们可以探索解决的路径和方法。

推理代码错误有时，当您的有效负载或您提供给端点的内容不采用适当的格式时，就会发生这些错误。调用端点时，您要确保数据格式正确/编码正确。为此，您可以使用 SageMaker 在创建端点时提供的序列化程序。序列化程序会为您处理编码并以适当的格式发送数据。看下面的代码sn-p。

from sagemaker.predictor import csv_serializer
rf_pred = rf.deploy(1, "ml.m4.xlarge", serializer=csv_serializer)
print(rf_pred.predict(payload).decode('utf-8'))

有关基于您输入的数据类型的不同序列化程序的更多信息，请查看以下链接。 https://sagemaker.readthedocs.io/en/stable/api/inference/serializers.html

达到限制有时，您输入的有效负载可能太大，或者端点的 API 请求率可能已超出，因此请尝试使用计算量更大的实例或增加 boto3 配置中的重试次数。下面是一个链接，其中包含重试的示例以及为您的端点配置重试。

https://aws.amazon.com/premiumsupport/knowledge-center/sagemaker-python-throttlingexception/

我为 AWS 工作，我的意见是我自己的

【讨论】：