【问题标题】:Concatenate values into Panda Series将值连接到 Pandas 系列中
【发布时间】:2020-03-06 22:10:19
【问题描述】:

我收到来自 API 请求的以下响应:

    <movies>
    <movie>
    <rating>5</rating>
    <name>star wars</name>
    </movie>
    <movie>
    <rating>8</rating>
    <name>jurassic park</name>
    </movie>
    </movies>

有没有办法获取这些信息并获取评级和名称值并存储在 Pandas 的系列中?

最终结果如下所示:

      Movie Rating  
     5 - star Wars  
 8 - Jurassic park    

您会注意到,我已将在回复中找到的每个值都提取出来,并将它们添加到一列中。例如,我希望将 5 个连接的 '-' 和星球大战加在一起。

【问题讨论】:

  • 一个很好的教程围绕相同的想法在这里:medium.com/@robertopreste/…
  • 我可能在示例方面做得不好,所以我很抱歉,我知道我可以获取每个值并映射到它自己的列(系列),我想要做的是捕获两个值从我的问题中指出的响应中,并将这两个值放在同一列下。从我刚刚阅读的文档来看,它似乎涵盖了为每个值创建新列,这是我不想做的。

标签: python pandas beautifulsoup


【解决方案1】:

这就是你要找的吗?我已经在代码中一步一步地解释了。有一部分我不知道怎么做,但我研究并弄清楚了。

import pandas as pd
import numpy as np
df = pd.DataFrame({'Data' : ['<movies>','<movie>','<rating>5</rating>',
                             '<name>star wars</name>', '</movie>', 
                             '<rating>8</rating>', '<name>jurassic park</name>', 
                             '</movie>', '</movies>']})
#Filter for the relevant rows of data based upon the logic of the pattern. I have also 
#done an optional reset of the index.
df = df.loc[df['Data'].str.contains('>.*<', regex=True)].reset_index(drop=True)
#For the rows we just filtered for, get rid of the irrelevant data with some regex 
#string manipulation
df['Data'] = df['Data'].str.findall('>.*<').str[0].replace(['>','<'], '', regex=True)
#Use join with shift and add_suffix CREDIT to @joelostblom:
#https://stackoverflow.com/questions/47450259/merge-row-with-next-row-in-dataframe- 
#pandas
df = df.add_suffix('1').join(df.shift(-1).add_suffix('2'))
#Filter for numeric rows only
df = df.loc[df['Data1'].str.isnumeric() == True]
#Combine Columns with desired format
df['Movie Rating'] = df['Data1'] + ' - ' + df['Data2']
#Filter for only relevant column and print dataframe
df = df[['Movie Rating']]
print(df)

【讨论】:

  • 就是这样!感谢您的详尽解释!
猜你喜欢
  • 2022-12-03
  • 2018-11-08
  • 1970-01-01
  • 1970-01-01
  • 2021-05-06
  • 1970-01-01
  • 2017-01-10
  • 2019-10-09
相关资源
最近更新 更多