PHP基于ICU扩展intl快速实现汉字转拼音及按拼音首字母分组排序的方法

这里有新鲜出炉的 PHP 设计模式，程序狗速度看过来！

PHP 开源脚本语言

PHP（外文名: Hypertext Preprocessor，中文名："超文本预处理器"）是一种通用开源脚本语言。语法吸收了 C 语言、Java 和 Perl 的特点，入门门槛较低，易于学习，使用广泛，主要适用于 web 开发领域。PHP 的文件后缀名为 php。

这篇文章主要介绍了 PHP 基于 ICU 扩展 intl 快速实现汉字转拼音及按拼音首字母分组排序的方法, 结合实例形式分析了 ICU 扩展 intl 的实现方法与拼音转换、排序等相关操作技巧, 需要的朋友可以参考下

本文实例讲述了 PHP 基于 ICU 扩展 intl 快速实现汉字转拼音及按拼音首字母分组排序的方法。分享给大家供大家参考，具体如下：

ICU(International Components for Unicode) 里提供了 transliterator(直译器),
可以很方便把其他语言 (比如简体中文) 转为拉丁文表示:
http://cn2.php.net/manual/zh/transliterator.transliterate.php
Transliterator: allows getting latin representation of strings in various languages.

 
<?php
//文件编码要求是Unicode
header('Content-Type: text/html; charset=utf-8');
echo transliterator_transliterate('Any-Latin', '中华有为');
//输出 zhōng huá yǒu wèi
echo transliterator_transliterate('Any-Latin; Latin-ASCII; Lower()', '中华有为');
//输出 zhong hua you wei
echo transliterator_transliterate('Any-Latin; Latin-ASCII; Upper()', '中华有为');
//输出 ZHONG HUA YOU WEI
echo transliterator_transliterate('Any-Latin', '重阳');
//输出 zhòng yáng (错误,多音字还是坑)

苹果上的 CFStringTransform/kCFStringTransformToLatin 汉字转拼音也是通过 ICU transform 实现的:

http://userguide.icu-project.org/transforms/general#TOC-ICU-Transliterators
http://nshipster.com/cfstringtransform/

使用 php5-intl(依赖 ICU:libicu52)的简体中文 (zh_CN) 排序器 collator 按拼音排序:

http://cn2.php.net/manual/zh/collator.sort.php
php-src/ext/intl --enable-intl --with-icu-dir=DIR

相关: MySQL 数据表排序规则 COLLATE=utf8_general_ci

 
<?php
header('Content-Type: text/html; charset=utf-8');
$coll = collator_create('zh_CN');
$arr = array('中国','华山','华夏','中华','重阳','重量','b','a',2,1);
collator_sort($coll, $arr);
var_export($arr);
/*输出(可见汉字按照拼音排序,但不能识别多音字"重"):
array (
 0 => 'a',
 1 => 'b',
 2 => '华山',
 3 => '华夏',
 4 => '中国',
 5 => '中华',
 6 => '重量',
 7 => '重阳',
 8 => 1,
 9 => 2,
)
*/

如果元素 1 和 2 加上引号变成字符串类型的话, 则 1 和 2 排序后会出现在开头.

查看已经安装的软件包目录文件结构:

dpkg -L libicu52:amd64
/usr/lib/x86_64-linux-gnu/libicu*
/usr/lib/x86_64-linux-gnu/libicudata.so.52.1 动态库 23MB
/usr/lib/x86_64-linux-gnu/libicudata.a 静态库 23MB

Windows 上则是:

php\icu*.dll
php\ext\php_intl.dll

下面实现了常用的按汉字拼音首字母分组排序的功能:

 
<?php
header('Content-Type: text/html; charset=utf-8');
$arr = array('百度知道','阿里云','百度百科','阿里巴巴');
$coll = collator_create('zh_CN');
collator_sort($coll, $arr);
var_export($arr);
//输出 array ( 0 => '阿里巴巴', 1 => '阿里云', 2 => '百度百科', 3 => '百度知道', )
$tmp = array();
foreach($arr as $v) {
 $pinyin = transliterator_transliterate('Any-Latin; Latin-ASCII; Upper()', $v);
 $tmp[substr($pinyin, 0, 1)][] = $v;
}
var_export($tmp);
/*输出
array (
 'A' =>
 array (
  0 => '阿里巴巴',
  1 => '阿里云',
 ),
 'B' =>
 array (
  0 => '百度百科',
  1 => '百度知道',
 ),
)
*/

附:

ls 命令, Linux 和 Windows 的文件管理器, 显示如下:

1 2 a b 华山华夏中国中华重量重阳

数字, 字母, 汉字 (按拼音排序, 但不能识别多音字)

汉字方面, 下面的自然排序跟上面有所不同:

 
<?php
header('Content-Type: text/plain; charset=utf-8');
$arr = array('中国','华山','华夏','中华','重阳','重量','b','a',2,1);
natsort($arr); // 等价于 uasort($arr, function($a, $b) { return strnatcmp($a, $b); });
var_export($arr);
/*输出(自然排序下汉字并没有按照拼音进行排序):
array (
 9 => 1,
 8 => 2,
 7 => 'a',
 6 => 'b',
 3 => '中华',
 0 => '中国',
 2 => '华夏',
 1 => '华山',
 5 => '重量',
 4 => '重阳',
)
*/

几种排序的比较:

 
<?php
header('Content-Type: text/plain; charset=utf-8');
$arr = explode(' ', '1 11 111 112 12 121 122 a aa aaa aab ab aba abb 阿里 百度 中 中国 中国国 中国中 中中 中中国 中中中');
shuffle($arr); //打乱数组
//collator_sort(collator_create('zh_CN'), $arr);
//usort($arr, function($a, $b) { return strnatcmp($a, $b); });
usort($arr, function($a, $b) { return strcmp($a, $b); });
echo implode(' ',$arr);
exit();
?>

ls 排序:

1 11 111 112 12 121 122 a aa aaa aab ab aba abb 阿里百度中中国中国国中国中中中中中国中中中

collator_sort(zh_CN) 排序 (类似 Windows/Linux 桌面文件管理器里的默认按名称上升排列):

1 11 12 111 112 121 122 a aa aaa aab ab aba abb 阿里百度中中国中国国中国中中中中中国中中中

strnatcmp 排序:

1 11 12 111 112 121 122 a aa aaa aab ab aba abb 中中中中中中中中国中国中国中中国国百度阿里

strcmp 排序:

1 11 111 112 12 121 122 a aa aaa aab ab aba abb 中中中中中中中中国中国中国中中国国百度阿里

希望本文所述对大家 PHP 程序设计有所帮助。

来源: http://www.phperz.com/article/17/0810/339995.html

与本文相关文章

暂无,快来抢沙发吧！