【问题标题】:ssh into glue dev-endpoint as hadoop user `File '/var/aws/emr/userData.json' cannot be read`ssh 进入胶水开发端点,因为 hadoop 用户 `File '/var/aws/emr/userData.json' cannot be read`
【发布时间】:2020-03-24 21:13:51
【问题描述】:

基本上,在按照this 教程将我的 PyCharm 设置到 Glue ETL 开发端点之后,我正在尝试解决this 问题。

java.io.IOException: File '/var/aws/emr/userData.json' cannot be read

以上文件归hadoop所有。

[glue@ip-xx.xx.xx.xx ~]$ ls -la /var/aws/emr/
total 32
drwxr-xr-x 4 root   root    4096 Mar 24 19:35 .
drwxr-xr-x 3 root   root    4096 Feb 12  2019 ..
drwxr-xr-x 3 root   root    4096 Feb 12  2019 bigtop-deploy
drwxr-xr-x 3 root   root    4096 Mar 24 19:35 packages
-rw-r--r-- 1 root   root    1713 Feb 12  2019 repoPublicKey.txt
-r--r----- 1 hadoop hadoop 10221 Mar 24 19:34 userData.json

而且我无法按照 Eric here 的建议更改其权限。我使用我的公钥 ssh 进入我的开发端点。

ssh -i ~/.ssh/<my_private_key> glue@ec2-xx.xx.xx.xx.eu-west-1.compute.amazonaws.com

并且无法将用户更改为 hadoop sudo -su hadoop,因为它要求我输入 root 密码,而我不知道 [sudo] password for glue:。我也不能使用 hadoop 用户(而不是 root(胶水))SSH 到端点,它说权限被拒绝(公钥)。我的问题是......我到底怎么知道 dev-endpoint 的 root 用户(胶水)密码?在创建开发端点时,我从未被要求进行任何设置。或者我如何通过 Hadoop 用户 ssh 进入 dev-endpoint?

【问题讨论】:

    标签: amazon-web-services hadoop etl aws-glue endpoint


    【解决方案1】:

    所以这不是真正的问题。得到 AWS 团队的审查,他们说您在通过 PyCharm 在 EMR 上运行 spark 脚本时会收到这些垃圾警告和错误,但这不应该影响脚本的实际任务。原来我正在创建的dataFrame;

    persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="database", table_name="table")
    

    在我执行persons_DyF.printSchema() 时没有向我显示任何架构。而我很确定我定义了那个表模式。它只输出rootpersons_DyF.count() = 0。所以我会改用pySpark

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.getOrCreate()
    df = spark.read.table("ingestion.login_emr_testing")
    print(df.printSchema())
    df.select(df["feed"], df["timestamp_utc"], df['date'], df['hour']).show()
    

    给了我以下结果;

    .
    .
    allot of rubbish errors and warning including `java.io.IOException: File '/var/aws/emr/userData.json' cannot be read`
    .
    .
    +------+--------------------+----------+----+
    | feed |       timestamp_utc|      date|hour|
    +------+--------------------+----------+----+
    |TWEAKS|19-Mar-2020 18:59...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 18:59...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 18:59...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    |TWEAKS|19-Mar-2020 19:00...|2020-03-19|  19|
    +-----+--------------------+----------+----+
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-08-14
      • 1970-01-01
      • 2021-05-02
      • 1970-01-01
      • 1970-01-01
      • 2018-10-06
      • 2019-10-30
      相关资源
      最近更新 更多