【问题标题】:Can't stream files from Amazon s3 using requests无法使用请求从 Amazon s3 流式传输文件
【发布时间】:2018-02-26 06:17:34
【问题描述】:

我正在尝试从 Common Crawl 流式传输爬取数据,但是当我使用 stream=True 参数获取请求时,Amazon s3 出错。这是一个例子:

resp = requests.get(url, stream=True)
print(resp.raw.read())

当我在 Common Crawl s3 http url 上运行它时,我得到了响应:

b'<?xml version="1.0" encoding="UTF-8"?>\n<Error><Code>NoSuchKey</Code>
<Message>The specified key does not exist.</Message><Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>
<RequestId>3652F4DCFAE0F641</RequestId><HostId>Do0NlzMr6
/wWKclt2G6qrGCmD5gZzdj5/GNTSGpHrAAu5+SIQeY15WC3VC6p/7/1g2q+t+7vllw=
</HostId></Error>'

我正在使用warcio,需要一个流文件对象作为归档迭代器的输入,并且由于内存有限,无法一次下载所有文件。我该怎么办?

PS。我在示例中请求的 url 是https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz

【问题讨论】:

  • 你不能像这样流式传输 s3 对象,你必须使用 boto3 模块来访问它们,而且因为默认情况下 aws 是一个拒绝优先系统,它说这个键不按顺序存在防止信息泄露
  • @boto3 不需要亚马逊钥匙吗?
  • 这不完全正确,这是一个公共数据集。 aws.amazon.com/public-datasets/common-crawl
  • 它需要帐户密钥,是的
  • 您在您的网址中省略了一个数字! CC-MAIN-2018-0 应该是 CC-MAIN-2018-05

标签: python amazon-web-services python-requests common-crawl


【解决方案1】:

您的网址中有错误。比较您得到的响应中的键:

<Key>crawl-data/CC-
MAIN-2018-05/segments/1516084886237.6/warc/CC-
MAIN-20180116070444-20180116090444-00000.warc.gz\n</Key>

到预期网址中的那个:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz

由于某种原因,您添加了不必要的空格,可能是在文件读取期间拾取的(readline() 将在每一行中为您提供尾随 '\n' 字符)。也许尝试调用.strip() 来删除尾随的换行符。

【讨论】:

  • 我在网站上打错了,我检查了日志,程序中没有错误
  • @Superman 您认为您正在流式传输的网址并不是实际请求的网址。响应中的键与工作 url 不匹配。更新答案
  • 帖子上的空格是出于视觉原因。响应在我的代码中没有空格。
  • 检查响应。您请求的密钥中肯定有一个\n
  • @avigil 你是对的,在路径文件上调用的 readlines 会留下一个尾随换行符,这会弄乱请求代码。感谢您的帮助!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-11-10
  • 2010-11-14
  • 1970-01-01
  • 1970-01-01
  • 2013-10-08
  • 1970-01-01
相关资源
最近更新 更多