【发布时间】:2012-06-15 09:47:32
【问题描述】:
我需要这样的 utf-8 文本:
“Bára, ta která má hezké oči. To je, ale nepříčetně nehorázné!”
拆分成单词和标点的数组,像这样:
Array (
[0] => Bára
[1] => ,
[2] => ta
[3] => která
[4] => má
[5] => hezké
[6] => oči
[7] => .
[8] => To
[9] => je
[10] => ,
[11] => ale
...
)
我在这里尝试了一些示例,但都不适用于 utf8 文本(á 或 ě 上的拆分文本)。
【问题讨论】:
-
请贴出你试过的代码。
-
我试过这个,但它不保留标点符号,并且在某些字符(š,ě)
preg_split('/((^\p{P}+)|(\p{P}*\s+\p{P}*)|(\p{P}+$))/', $text, -1, PREG_SPLIT_NO_EMPTY)和这个:http://stackoverflow.com/questions/1600649/split-text-into-words-problem-php-complicated-problem
标签: php regex utf-8 preg-split