将列表拆分为列 Pandas答案

【问题标题】：Split list into columns Pandas将列表拆分为列 Pandas
【发布时间】：2022-01-12 15:37:58
【问题描述】：

抓取数据后，我得到以下输出：

['Revenue',
 '365817',
 '274515',
 '260174',
 '265595',
 '229234',
 '215639',
 'Cost Of Goods Sold',
 '212981',
 '169559',
 '161782',
 '163756',
 '141048',
 '131376',
 'Gross Profit',
 '152836',
 '104956',
 '98392',
 '101839',
 '88186',
 '84263',
 'Research And Development Expenses',
 '21914',
 '18752',
 '16217',
 '14236',
 '11581',
 '10045',
 'SG&A Expenses',
 '21973',
 '19916',
 '18245',
 '16705',
 '15261',
 '14194',
 'Other Operating Income Or Expenses',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 'Operating Expenses',
 '256868',
 '208227',
 '196244',
 '194697',
 '167890',
 '155615',
 'Operating Income',
 '108949',
 '66288',
 '63930',
 '70898',
 '61344',
 '60024',
 'Total Non-Operating Income/Expense',
 '258',
 '803',
 '1807',
 '2005',
 '2745',
 '1348',
 'Pre-Tax Income',
 '109207',
 '67091',
 '65737',
 '72903',
 '64089',
 '61372',
 'Income Taxes',
 '14527',
 '9680',
 '10481',
 '13372',
 '15738',
 '15685',
 'Income After Taxes',
 '94680',
 '57411',
 '55256',
 '59531',
 '48351',
 '45687',
 'Other Income',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 'Income From Continuous Operations',
 '94680',
 '57411',
 '55256',
 '59531',
 '48351',
 '45687',
 'Income From Discontinued Operations',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 'Net Income',
 '94680',
 '57411',
 '55256',
 '59531',
 '48351',
 '45687',
 'EBITDA',
 '120233',
 '77344',
 '76477',
 '81801',
 '71501',
 '70529',
 'EBIT',
 '108949',
 '66288',
 '63930',
 '70898',
 '61344',
 '60024',
 'Basic Shares Outstanding',
 '16701',
 '17352',
 '18471',
 '19822',
 '20869',
 '21883',
 'Shares Outstanding',
 '16865',
 '17528',
 '18596',
 '20000',
 '21007',
 '22001',
 'Basic EPS',
 '567',
 '331',
 '299',
 '300',
 '232',
 '209',
 'EPS - Earnings Per Share',
 '561',
 '328',
 '297',
 '298',
 '230',
 '208']

当我尝试在 Pandas 中创建一个数据框时，我只得到一个名为“Revenue”的列以及它下面的所有数据，有什么方法可以根据标题拆分这些行？我想要这个输出：

0      Revenue      Cost Of Goods Sold     ...
1       365817       212981                ...
2       274515       169559                ...
3       260174       161782                ...
4       265595       163756                ...

我不能使用某些函数来拆分确切数量的元素，因为初始输出的变量数量会发生变化。

【问题讨论】：

您可以尝试编写一个小循环来计算标题之间的数字元素的数量，从而使拆分成为可能。

标签： python arrays pandas web-scraping

【解决方案1】：

如果你创建 dict 键是字符串，值是这个列表中的列表。例如，每次您找到一个字符串时，都会创建一个新键，然后附加到它：

last_key = None
my_dict = {}
for i in my_list:
    if not (i.isnumeric() or i == '-'):
        last_key = i
    elif last_key in my_dict:
        my_dict[last_key].append(i)
    else:
        my_dict[last_key] = [i]
print(my_dict)

然后创建数据框：

my_df = pd.DataFrame(my_dict)

【讨论】：