【问题标题】:Display URL Image Using Pyspark使用 Pyspark 显示 URL 图片
【发布时间】:2019-05-29 08:59:24
【问题描述】:

我有一个数据框,其中包含一个带有 URL 链接的列,我希望显示每个图像。

我为本地文件尝试了以下解决方案,但它不适用于 URL 链接。 Spark using PySpark read images

如果有人知道如何使用 URL 链接为 pyspark 数据框完成此操作,请分享。

url jpg 示例: https://steemitimages.com/DQmWSoXZPHH2XEuVRUbPqiPLf6niA2xfvFXYZ2FYPYhMQ4X/1%20(3).jpg

【问题讨论】:

  • 嗨加载图像仅适用于本地路径或类似路径的 hdfs。您只能将此图像下载到本地磁盘然后加载它。

标签: pyspark


【解决方案1】:

加载图像仅适用于本地路径或类似路径的 hdfs。 您只能将此图像下载到本地磁盘然后加载它。


import urllib.request

# path to your image source directory
sample_img_dir = /tmp/images

urllib.request.urlretrieve(' https://steemitimages.com/DQmWSoXZPHH2XEuVRUbPqiPLf6niA2xfvFXYZ2FYPYhMQ4X/1%20(3).jpg', sample_img_dir+'/image1.jpg')


# Read image data using new image scheme
image_df = spark.read.format("image")\
           .option("dropInvalid", true)\
           .load(sample_img_dir)


image_df.select("image.origin", "image.width", "image.height").show(truncate=False)
+-------------------------------------------+-----+------+
|origin                                     |width|height|
+-------------------------------------------+-----+------+
|file:///tmp/images/image1.jpg              |300  |311   |
|file:///tmp/images/image2.jpg              |199  |313   |
|file:///tmp/images/image3.jpg              |300  |200   |
|file:///tmp/images/image4.jpg              |300  |296   |
+-------------------------------------------+-----+------+

参考:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-10-19
    • 2021-02-01
    • 1970-01-01
    • 1970-01-01
    • 2014-02-27
    • 2021-08-24
    • 2020-12-21
    • 2013-11-09
    相关资源
    最近更新 更多