【发布时间】:2021-01-31 11:43:06
【问题描述】:
有人可以帮我找到解决以下问题的方法吗?我更喜欢寻找要搜索的术语来解决问题,但如果您知道一种快速而肮脏的方法,那也将不胜感激。
我有一个像下面这样的矩阵:
sample_1. sample_2. sample_3. sample_4.
G1 inc_1,inc_1A. *. inc_1. inc_1.
G2 inc_2. *. *. *.
G3 *. inc_3,inc_3A,inc_3B. inc_3. inc_3,inc_3A
我希望将其转换为如下所示的计数矩阵
sample_1. sample_2. sample_3. sample_4.
G1 2 0 1 1
G2 1 0 0 0
G3 0 3 1 2
这个数据库非常大(大约 10,000 列和 3,000,000 行),所以我想尽可能避免使用 df.iterrows()。有谁知道我如何开始实施这个?
单元格中的“_”可以算作所有事件都具有此命名法,“*”表示未检测到(或 0)。
我们非常感谢任何帮助、建议或建设性的批评。
【问题讨论】:
-
你试过正则表达式(docs.python.org/3/library/re.html)吗?
-
我还没有,但我现在应该阅读它。谢谢
标签: python pandas dataframe matrix