【发布时间】:2021-01-09 02:43:21
【问题描述】:
我想按照以下文档使用 boto3 API 创建 aws 胶水爬虫。
这里我需要传递将近 100 条 s3 路径,我想以编程方式创建它。
response = client.create_crawler(
Name='string',
Role='string',
DatabaseName='string',
Description='string',
Targets={
'S3Targets': [
{
'Path': 'string',
'Exclusions': [
'string',
],
'ConnectionName': 'string'
},
],
这里我需要一次从 s3 传递 100 条路径到 API 调用,有没有更好的方法以编程方式而不是手动将所有 s3 路径添加到 API 调用?
【问题讨论】:
-
这些 S3 路径是否遵循某种模式?您打算在哪里维护 s3 路径列表?
-
是的,我有一个类似下面的模式 s3://Bucketname/data/test/abc.parquet s3://Bucketname/data/testone/def.parquet 我们如何传递所有路径一次?任何想法 ?感谢您的回复
-
传递完整路径对爬虫来说不是一个好主意。 s3://Bucketname/data 下的所有这些文件是否具有相同的架构?创建表后,您将使用什么来从这些表中读取数据?