【发布时间】:2021-04-13 07:47:30
【问题描述】:
我有一个 CSV 的句子和另一个 CSV,其中相同的句子被打断和混乱。
例如,一个 CSV 具有:
The quick brown fox jumps over the lazy dog.
另一个 CSV 有:
jumps over the
The quick brown fox
lazy dog.
每个 CSV 包含超过 1 个句子,但希望您能从上面的示例中获得灵感。
我使用模糊匹配来查看它们是否匹配,但现在我想重构句子。
是否有可能使用 Python 重构混乱的 CSV 以匹配完整的句子?
【问题讨论】:
-
您可以简单地检查句子的每个部分是否出现在完整的句子中
-
您的意思是要重新排列混乱的 CSV 中的行,以便 sn-ps 以正确的顺序显示?
-
@EliasStrehle 是的,就是这样!唯一的问题是会有超过 1 个句子要匹配,并且多个 sn-ps 会在同一个 csv 中混杂。
-
'The quick brown fox jumps over the lazy dog.'.find('jumps over the')为您提供子字符串的索引位置。对每个子字符串执行此操作并按索引排序。 (如果子字符串在混乱的 CSV 中不明确或重复,可能无法按预期工作)。
标签: python csv fuzzywuzzy