【问题标题】:Azure Machine Learning Service - dataset API questionAzure 机器学习服务 - 数据集 API 问题
【发布时间】:2019-12-02 18:10:07
【问题描述】:

我正在尝试使用 AML 的 autoML 功能。我在示例笔记本中看到它使用 Dataset.Tabular.from_delimited_files(train_data) ,它只从 https 路径获取数据。我想知道如何直接使用熊猫数据框 automl 配置而不是使用数据集 API。或者,我可以将熊猫数据框转换为表格数据集以传递给 automl 配置的方式是什么?

【问题讨论】:

    标签: automl azure-machine-learning-service


    【解决方案1】:

    您可以很容易地将您的 pandas 数据框保存到 parquet,将数据上传到工作区的默认 blob 存储,然后从那里创建一个 Dataset

    # ws = <your AzureML workspace>
    # df = <contains a pandas dataframe>
    from azureml.core.dataset import Dataset
    os.makedirs('mydata', exist_ok=True)
    df.to_parquet('mydata/myfilename.parquet')
    dataref = ws.get_default_datastore().upload('mydata')
    dataset = Dataset.Tabular.from_parquet_files(path = dataref.path('myfilename.parquet'))
    dataset.to_pandas_dataframe()
    

    或者您可以从门户中的本地文件创建Dataset http://ml.azure.com

    在门户中创建它后,它会为您提供加载它的代码,看起来有点像这样:

    # azureml-core of version 1.0.72 or higher is required
    from azureml.core import Workspace, Dataset
    
    subscription_id = 'xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx'
    resource_group = 'ignite'
    workspace_name = 'ignite'
    
    workspace = Workspace(subscription_id, resource_group, workspace_name)
    
    dataset = Dataset.get_by_name(workspace, name='IBM-Employee-Attrition')
    dataset.to_pandas_dataframe()
    

    【讨论】:

      猜你喜欢
      • 2016-11-03
      • 2015-06-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-05-17
      • 1970-01-01
      • 1970-01-01
      • 2018-09-26
      相关资源
      最近更新 更多