directKafkaStream 到 Spark DataFrame答案

【问题标题】：directKafkaStream to Spark DataFramedirectKafkaStream 到 Spark DataFrame
【发布时间】：2018-12-30 01:48:57
【问题描述】：

我已成功打印输出。但我想在 Spark DataFrame 中捕获这些，然后将它们插入到表中。

下面是我的消费者代码

public class SparkAvroConsumer {
  private static Injection<GenericRecord, byte[]> recordInjection;

  static {
      Schema.Parser parser = new Schema.Parser();
      Schema schema = parser.parse(UserSchema.getUserSchema());
      recordInjection = GenericAvroCodecs.toBinary(schema);
  }

public static void main(String[] args) throws InterruptedException {

    SparkConf conf = new SparkConf()
            .setAppName("JavaWordCountCon")
            .setMaster("local[*]");
    JavaSparkContext sc = new JavaSparkContext(conf);
    JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(2000));

    String consumeGroup = "cg1";
    Database_Conn conn = new Database_Conn();

    Set<String> topics = Collections.singleton("Kafka_Example");
    Map<String, String> kafkaParams = new HashMap<>();
    kafkaParams.put("metadata.broker.list", "localhost:9092");
    kafkaParams.put("enable.auto.commit", "false");
    kafkaParams.put("auto.commit.interval.ms", "101");
    kafkaParams.put("group.id", consumeGroup);
    kafkaParams.put("max.partition.fetch.bytes", "135");

    JavaPairInputDStream<String, byte[]> directKafkaStream = KafkaUtils.createDirectStream(ssc,
            String.class, byte[].class, StringDecoder.class, DefaultDecoder.class, kafkaParams, topics);

    directKafkaStream
            .map(message -> recordInjection.invert(message._2).get())
            .foreachRDD(rdd -> {
                rdd.foreach(record -> {
                    System.out.println(record);
                });
            });

    ssc.start();
    ssc.awaitTermination();
}}

【问题讨论】：

可以使用spark结构流式处理：streamingDF.writeStream.foreachBatch { ...}spark.apache.org/docs/latest/…
感谢您的回复。您能否提供代码 sn-p 如何将其放入我的代码中？注册

标签： java apache-spark apache-kafka

【解决方案1】：

示例代码：

在数据库 someDatabase 中创建表 people:

create table people(name Varchar(100), age Int);

运行应用程序

import org.apache.spark.sql.catalyst.ScalaReflection
import org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions
import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}


object JdbcSampleApp extends App {

  case class Person(name: String, age: Int)

  import org.apache.spark.sql.functions._

  val session = SparkSession.builder.master("local[2]")
    .appName("NetworkWordCount").config("spark.driver.host", "localhost").getOrCreate()


  import session.implicits._
  val df: DataFrame = session.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "localhost:9092")
    .option("subscribe", "people")
    .load()

  val schema = ScalaReflection.schemaFor[Person].dataType.asInstanceOf[StructType]


  val people = df.selectExpr(s"CAST(value AS STRING) AS json")
    .select(from_json($"json", schema) as "data")
    .select("data.*").as[Person].map(p => p.copy(age = p.age+7))

  people.printSchema()

  val sQuery = people.writeStream.trigger(Trigger.ProcessingTime("10 second")).
    foreachBatch((peopleDataSet: Dataset[Person], n: Long) => {
    peopleDataSet.write.format("jdbc")
      .mode(SaveMode.Append)
      .option(JDBCOptions.JDBC_URL, "jdbc:postgresql://localhost:6543/someDatabase?user=username&password=secret")
      .option(JDBCOptions.JDBC_TABLE_NAME, "people")
      .option(JDBCOptions.JDBC_DRIVER_CLASS, "org.postgresql.Driver")
      .save()
  }
  ).start()

  sQuery.awaitTermination(60000)
}

发送卡夫卡消息

$KAFKA_HOME/kafka-console-producer.sh \
  --broker-list localhost:9092 \
  --topic people \
  --property "parse.key=true" \
  --property "key.separator=_"

示例消息：

4_{"name": "Johny", "age": 31}
1_{"name": "Ronny", "age": 34}

【讨论】：

我已经通过创建一个源表类型的类来处理这个问题（目标表也具有相同的结构）。稍后通过创建数据集。使用了这两个步骤-