【发布时间】:2022-01-19 21:35:31
【问题描述】:
这是文件中的示例数据。我想拆分文件中的每一行并添加到数据框中。在某些情况下,他们有超过 1 个孩子。因此,每当他们有多个子列时,都必须添加 child2 Name 和 DOB
(P322) Rashmika Chadda 15/05/1995 – Rashmi C 12/02/2024
(P324) Shiva Bhupati 01/01/1994 – Vinitha B 04/08/2024
(P356) Karthikeyan chandrashekar 22/02/1991 – Kanishka P 10/03/2014
(P366) Kalyani Manoj 23/01/1975 - Vandana M 15/05/1995 - Chandana M 18/11/1998
这是我尝试过的代码,但这仅通过考虑“-”来拆分
with open("text.txt") as read_file:
file_contents = read_file.readlines()
content_list = []
temp = []
for each_line in file_contents:
temp = each_line.replace("–", " ").split()
content_list.append(temp)
print(content_list)
当前输出:
[['(P322)', 'Rashmika', 'Chadda', '15/05/1995', 'Rashmi', 'Chadda', 'Teega', '12/02/2024'], ['(P324)', 'Shiva', 'Bhupati', '01/01/1994', 'Vinitha', 'B', 'Sahu', '04/08/2024'], ['(P356)', 'Karthikeyan', 'chandrashekar', '22/02/1991', 'Kanishka', 'P', '10/03/2014'], ['(P366)', 'Kalyani', 'Manoj', '23/01/1975', '-', 'Vandana', 'M', '15/05/1995', '-', 'Chandana', 'M', '18/11/1998']]
最终输出应如下所示
| Code | Parent_Name | DOB | Child1_Name | DOB | Child2_Name | DOB |
|---|---|---|---|---|---|---|
| P322 | Rashmika Chadda | 15/05/1995 | Rashmi C | 12/02/2024 | ||
| P324 | Shiva Bhupati | 01/01/1994 | Vinitha B | 04/08/2024 | ||
| P356 | Karthikeyan chandrashekar | 22/02/1991 | Kanishka P | 10/03/2014 | ||
| P366 | Kalyani Manoj | 23/01/1975 | Vandana M | 15/05/1995 | Chandana M | 18/11/1998 |
【问题讨论】:
-
您需要将参数传递给
split。结果数据的架构已损坏,因为您有 3 个具有相同名称“DOB”的列。
标签: python split nlp delimiter