【问题标题】:How to convert tabular format data to sentence or readable format using Pyspark?如何使用 Pyspark 将表格格式数据转换为句子或可读格式?
【发布时间】:2020-06-28 04:58:48
【问题描述】:

【问题讨论】:

  • 您可以使用 concat 和字符串文字来实现您想要的。这个问题很容易研究。like F.concat(F.col("member_id"),F.lit(" 驻留在"), F.col("address"))

标签: apache-spark pyspark cassandra apache-spark-sql spark-cassandra-connector


【解决方案1】:

您可以添加一个名为“Sentence”的新列,如下所示,并使用concat 函数转换为可读格式。如果您希望将 df 写入 CSV 文件,我还将其写入文件。

>>> from pyspark.sql.functions import *
>>> df.show()
+-----+---------+---+----+
|fname|    lname|age|dept|
+-----+---------+---+----+
| Jack|  Felice | 25|  IT|
| Mike| Gilbert | 30|  CS|
| John|     Shen| 45|  DR|
+-----+---------+---+----+

>>> df1 = df.withColumn("sentence", concat( col("fname"), lit(" "), col("lname"), lit("is "), col("age"), lit(" year's old and he works in a "), col("dept"), lit(" department."))).select("sentence")
>>> df1.show(10,False)
+---------------------------------------------------------------+
|sentence                                                       |
+---------------------------------------------------------------+
|Jack Felice is 25 year's old and he works in a IT department.  |
|Mike  Gilbert is 30 year's old and he works in a CS department.|
|John Shenis 45 year's old and he works in a DR department.     |
+---------------------------------------------------------------+

>>> df1.write.format("csv").option("header", "true").save("/out/")

CSV 输出

【讨论】:

  • 实际上我不想创建额外的列作为句子,而是我想以句子格式显示表格数据。
  • 我试图将输入作为 user_id 并根据输入我想显示表数据,但为什么它没有在输出中显示任何内容。我写的代码是- val = input("Enter user_id:") df.select(['user_id','date','city']).orderBy(col('date'), ascending=True).where ((col('User_id')==val)).show() 。谁能帮我解决这个问题?
  • 如果您不想添加新列,也可以覆盖现有数据框列。
  • 关于您的第二条评论,我认为这是不同的问题,所以请在 StackOverflow 上提出另一个问题。
  • 假设我必须将输入作为日期范围(从日期到日期),以及它应该如何显示/获取从表格到句子格式的所需数据。还喜欢如何给出日期范围?
猜你喜欢
  • 2021-07-25
  • 1970-01-01
  • 2011-01-24
  • 2021-07-21
  • 2021-11-12
  • 1970-01-01
  • 2023-01-25
  • 1970-01-01
  • 2011-12-10
相关资源
最近更新 更多