【发布时间】:2017-10-03 17:06:55
【问题描述】:
有一个数组,其中有数百万个单词。并且您需要创建一个关联数组,其中包含所有这些单词的错误变体,并将该单词的正确版本作为键。并且单词的错误变体不能与数组中的正确单词重合。而且,所有错误的单词变体也不应该彼此重合。所有这些生成的不正确的单词变体我需要纠正不正确的西里尔字母(不是俄语单词,也不是英语)。例如,以“apple”和“lost”这两个词为例。 带有正确单词的数组,用于创建不正确的变体:
<?php
$correct_words = array(
"apple",
"lost",
"lot",
"microsoft"
);
?>
我希望结果是这样的:
<?php
$incorrect_variant_words = array(
"aple"=>"apple",
"lst"=>"lost",
"lt"=>"lot",
"microsot"=>"microsoft",
"microsft"=>"microsoft",
"microoft"=>"microsoft",
"micrsoft"=>"microsoft",
"micosoft"=>"microsoft",
"mirosoft"=>"microsoft",
"mcrosoft"=>"microsoft"
);
?>
我想更正不正确的单词。给建议或者有这个任务的解决方案,请告诉我。例如在谷歌翻译器中实现了这样的功能。如何在没有 Pspell 的 php 扩展的情况下解决这个问题。请帮助我解决如此艰巨的任务。为了用作正确的单词,我还添加了一个具有正确值的单词数组。
<?php
$array = array(
"миёнаҳои",
"луғатҳои",
"онандроҷ",
"ганҷинаи",
"ҷамъиятӣ",
"иҷтимоии",
"муҳаммад",
"рӯзмарра",
"ҳамзабон",
"забонҳои",
"ҳамчунин",
"фарҳанге",
"феҳристи",
"зардуштӣ",
"таркибҳо",
"ибораҳои",
"калимаҳо",
"фарҳанги",
"тобишҳои",
"намунаҳо",
"нусхаҳои",
"фирдавсӣ",
"ҳуруфоти",
"мутобиқи",
"тақрибан",
"алоҳидаи",
"тоисломӣ",
"паҳлавик",
"классикӣ",
"мӯътабар",
"қадамҳои",
"баргаҳои"
);
?>
提前谢谢你
【问题讨论】:
-
为什么“apple”只有一种变体,而微软只有7种?
-
那么“list”这个词也会有“lst”作为变体吗?你如何区分它们?
-
我忘记了苹果值“appe”“ale”。是的,您在单词“list”中的正确性可能是不正确的变体“lst”。在我自己不知道这些错误之前该怎么做
标签: php arrays string similarity soundex