【问题标题】:Azure Databricks - Reading Parquet files into DataFramesAzure Databricks - 将 Parquet 文件读入 DataFrame
【发布时间】:2019-10-15 23:25:00
【问题描述】:

我是 Python 新手...试图从 Databricks 读取镶木地板文件,但当文件为空时会引发错误。如何在将文件读入 DataFrame 之前检查文件大小。代码如下:

%python

##check if file is empty ???
##if not empty read
##else do something else

try:
   parquetDF =              
   spark.read.parquet("wasbs://XXXXX@XXXX.blob.core.windows.net/XXXX/2019-10- 11/account.parquet")
except:
   print('File is Empty !!!')

【问题讨论】:

    标签: python dataframe parquet azure-databricks


    【解决方案1】:

    现在我按照下面的方式处理这个

    %python
    import pandas as pd
    data = {
        'Dummy': ['Dummy'], 
    }
    parquetDF = pd.DataFrame(data)
    try:
      parquetDF = spark.read.parquet("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
    except:
      print('Empty File!!!')
    if (parquetDF.columns[0] == 'Dummy'):
      print('Do Nothing !!!!')
    else:
      print('Do Something !!!')
    

    创建 Dummy DataFrame,然后尝试使用 parquet Data 加载 DataFrame。如果任何异常/源文件为空 DF 将不会被加载。然后检查DF是否加载并进行相应处理。

    也尝试读取文件大小,但出现异常'没有这样的文件或目录'

    %python
    import os
    statinfo = os.stat("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
    statinfo
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-02-22
      • 2021-01-10
      • 1970-01-01
      • 1970-01-01
      • 2020-06-30
      • 1970-01-01
      • 2022-01-01
      • 2020-12-25
      相关资源
      最近更新 更多