这里有新鲜出炉的 PHP 设计模式,程序狗速度看过来!
PHP(外文名: Hypertext Preprocessor,中文名:"超文本预处理器")是一种通用开源脚本语言。语法吸收了 C 语言、Java 和 Perl 的特点,入门门槛较低,易于学习,使用广泛,主要适用于 web 开发领域。PHP 的文件后缀名为 php。
这篇文章主要介绍了 PHP 基于 ICU 扩展 intl 快速实现汉字转拼音及按拼音首字母分组排序的方法, 结合实例形式分析了 ICU 扩展 intl 的实现方法与拼音转换、排序等相关操作技巧, 需要的朋友可以参考下
本文实例讲述了 PHP 基于 ICU 扩展 intl 快速实现汉字转拼音及按拼音首字母分组排序的方法。分享给大家供大家参考,具体如下:
ICU(International Components for Unicode) 里提供了 transliterator(直译器),
可以很方便把其他语言 (比如简体中文) 转为拉丁文表示:
http://cn2.php.net/manual/zh/transliterator.transliterate.php
Transliterator: allows getting latin representation of strings in various languages.
- <?php
- //文件编码要求是Unicode
- header('Content-Type: text/html; charset=utf-8');
- echo transliterator_transliterate('Any-Latin', '中华有为');
- //输出 zhōng huá yǒu wèi
- echo transliterator_transliterate('Any-Latin; Latin-ASCII; Lower()', '中华有为');
- //输出 zhong hua you wei
- echo transliterator_transliterate('Any-Latin; Latin-ASCII; Upper()', '中华有为');
- //输出 ZHONG HUA YOU WEI
- echo transliterator_transliterate('Any-Latin', '重阳');
- //输出 zhòng yáng (错误,多音字还是坑)
苹果上的 CFStringTransform/kCFStringTransformToLatin 汉字转拼音也是通过 ICU transform 实现的:
http://userguide.icu-project.org/transforms/general#TOC-ICU-Transliterators
http://nshipster.com/cfstringtransform/
使用 php5-intl(依赖 ICU:libicu52)的简体中文 (zh_CN) 排序器 collator 按拼音排序:
http://cn2.php.net/manual/zh/collator.sort.php
php-src/ext/intl --enable-intl --with-icu-dir=DIR
相关: MySQL 数据表排序规则 COLLATE=utf8_general_ci
- <?php
- header('Content-Type: text/html; charset=utf-8');
- $coll = collator_create('zh_CN');
- $arr = array('中国','华山','华夏','中华','重阳','重量','b','a',2,1);
- collator_sort($coll, $arr);
- var_export($arr);
- /*输出(可见汉字按照拼音排序,但不能识别多音字"重"):
- array (
- 0 => 'a',
- 1 => 'b',
- 2 => '华山',
- 3 => '华夏',
- 4 => '中国',
- 5 => '中华',
- 6 => '重量',
- 7 => '重阳',
- 8 => 1,
- 9 => 2,
- )
- */
如果元素 1 和 2 加上引号变成字符串类型的话, 则 1 和 2 排序后会出现在开头.
查看已经安装的软件包目录文件结构:
dpkg -L libicu52:amd64
/usr/lib/x86_64-linux-gnu/libicu*
/usr/lib/x86_64-linux-gnu/libicudata.so.52.1 动态库 23MB
/usr/lib/x86_64-linux-gnu/libicudata.a 静态库 23MB
Windows 上则是:
php\icu*.dll
php\ext\php_intl.dll
下面实现了常用的按汉字拼音首字母分组排序的功能:
- <?php
- header('Content-Type: text/html; charset=utf-8');
- $arr = array('百度知道','阿里云','百度百科','阿里巴巴');
- $coll = collator_create('zh_CN');
- collator_sort($coll, $arr);
- var_export($arr);
- //输出 array ( 0 => '阿里巴巴', 1 => '阿里云', 2 => '百度百科', 3 => '百度知道', )
- $tmp = array();
- foreach($arr as $v) {
- $pinyin = transliterator_transliterate('Any-Latin; Latin-ASCII; Upper()', $v);
- $tmp[substr($pinyin, 0, 1)][] = $v;
- }
- var_export($tmp);
- /*输出
- array (
- 'A' =>
- array (
- 0 => '阿里巴巴',
- 1 => '阿里云',
- ),
- 'B' =>
- array (
- 0 => '百度百科',
- 1 => '百度知道',
- ),
- )
- */
附:
ls 命令, Linux 和 Windows 的文件管理器, 显示如下:
1 2 a b 华山 华夏 中国 中华 重量 重阳
数字, 字母, 汉字 (按拼音排序, 但不能识别多音字)
汉字方面, 下面的自然排序跟上面有所不同:
- <?php
- header('Content-Type: text/plain; charset=utf-8');
- $arr = array('中国','华山','华夏','中华','重阳','重量','b','a',2,1);
- natsort($arr); // 等价于 uasort($arr, function($a, $b) { return strnatcmp($a, $b); });
- var_export($arr);
- /*输出(自然排序下汉字并没有按照拼音进行排序):
- array (
- 9 => 1,
- 8 => 2,
- 7 => 'a',
- 6 => 'b',
- 3 => '中华',
- 0 => '中国',
- 2 => '华夏',
- 1 => '华山',
- 5 => '重量',
- 4 => '重阳',
- )
- */
几种排序的比较:
- <?php
- header('Content-Type: text/plain; charset=utf-8');
- $arr = explode(' ', '1 11 111 112 12 121 122 a aa aaa aab ab aba abb 阿里 百度 中 中国 中国国 中国中 中中 中中国 中中中');
- shuffle($arr); //打乱数组
- //collator_sort(collator_create('zh_CN'), $arr);
- //usort($arr, function($a, $b) { return strnatcmp($a, $b); });
- usort($arr, function($a, $b) { return strcmp($a, $b); });
- echo implode(' ',$arr);
- exit();
- ?>
ls 排序:
1 11 111 112 12 121 122 a aa aaa aab ab aba abb 阿里 百度 中 中国 中国国 中国中 中中 中中国 中中中
collator_sort(zh_CN) 排序 (类似 Windows/Linux 桌面文件管理器里的默认按名称上升排列):
1 11 12 111 112 121 122 a aa aaa aab ab aba abb 阿里 百度 中 中国 中国国 中国中 中中 中中国 中中中
strnatcmp 排序:
1 11 12 111 112 121 122 a aa aaa aab ab aba abb 中 中中 中中中 中中国 中国 中国中 中国国 百度 阿里
strcmp 排序:
1 11 111 112 12 121 122 a aa aaa aab ab aba abb 中 中中 中中中 中中国 中国 中国中 中国国 百度 阿里
希望本文所述对大家 PHP 程序设计有所帮助。
来源: http://www.phperz.com/article/17/0810/339995.html