每天学习一点点,成功增加一大步

PHP 中转换 SGML 类语言为真实中文字符

PHP zhanghui 668℃

昨天在用 PHP 在做一个数据采集项目的时候遇到了一个特殊的问题,就是中文被特殊的字符转化,用PHP采集过来还是保持原来的字符,但在浏览器会被编译成正常的中文字符显示在页面上,但你打开源代码查看时还是会保持原来的字符。

‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’

上面是这个特殊的原形,经过网络的查找,说这一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。

&#dddd;
&#xhhhh;
&#name;

以 HTML 为例,这三种转义序列都称作 character reference:

  • 前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。
  • 后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。

通过以上资料的提示,我开始查找 PHP 有关 Unicode 方面的信息,所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题,于是今天上午我又换了一种思路去开始查找,最后终于让我找到了解决方法。

原来 PHP 自带就有两个函数来解决这个问题,这两个函数分别是 html_entity_decode 和 mb_convert_encoding。

至于这两个函数的用法,大家可以看 PHP 官方的手册就明白,这个不多说了,下面是两个函数解决这个问题的写法。

 $string = 'Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统';
$str1 = html_entity_decode($string);
$str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');

转载请注明:隨習筆記 » PHP 中转换 SGML 类语言为真实中文字符