【发布时间】:2017-05-14 04:14:27
【问题描述】:
我需要基于以下结构的文本文件创建一个 Pandas DataFrame:
Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]
Fairbanks (University of Alaska Fairbanks)[2]
Arizona[edit]
Flagstaff (Northern Arizona University)[6]
Tempe (Arizona State University)
Tucson (University of Arizona)
Arkansas[edit]
带有“[edit]”的行是州,而行 [number] 是地区。我需要拆分以下内容,然后为每个区域名称重复州名称。
Index State Region Name
0 Alabama Aurburn...
1 Alabama Florence...
2 Alabama Jacksonville...
...
9 Alaska Fairbanks...
10 Alaska Arizona...
11 Alaska Flagstaff...
熊猫数据框
我不确定如何将基于“[edit]”和“[number]”或“(characters)”的文本文件拆分为相应的列,并为每个区域名称重复州名称。请任何人都可以给我一个起点来完成以下工作。
【问题讨论】:
标签: python regex pandas text extract