【问题标题】:Getting the number of records read from Cassandra table while using Spark Cassandra Connector使用 Spark Cassandra 连接器获取从 Cassandra 表读取的记录数
【发布时间】:2020-08-02 23:38:24
【问题描述】:

在写入 Cassandra 表时,我得到以下有关写入行数和所用时间的信息。从日志中,我可以看到它来自 TableWriter 类。如何在不调用 RDD 操作的情况下从 Cassandra 读取时找到相同的信息?我不确定使用哪种方法来阅读。

2020-04-20 11:58:42 INFO  com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.


将 spark 数据帧写入 Cassandra 表的代码

myDF.write
  .format("org.apache.spark.sql.cassandra")
  .mode(saveMode)
  .options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
  .save()

将 Cassandra 表读入 spark RDD 的代码

val cassandraRDD = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
      .load()

【问题讨论】:

    标签: scala apache-spark cassandra datastax


    【解决方案1】:

    我也能够在阅读期间获得指标。不同之处在于这些指标的日志记录级别。在撰写本文时,日志级别为 INFO,这就是我能够在日志中找到此信息的原因。但在写入期间,这些指标会以 DEBUG 级别记录。我将 spark 日志记录级别更改为 DEBUG,并且能够看到这些指标。

    参考 - https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-08-14
      • 2016-01-05
      • 2015-10-28
      • 2015-10-28
      • 2015-12-03
      • 2021-02-07
      • 2019-07-16
      • 2019-07-28
      相关资源
      最近更新 更多