昨天在用 PHP 在做一个数据采集项目的时候遇到了一个特殊的问题,就是中文被特殊的字符转化,用PHP采集过来还是保持原来的字符,但在浏览器会被编译成正常的中文字符显示在页面上,但你打开源代码查看时还是会保持原来的字符。
‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’
上面是这个特殊的原形,经过网络的查找,说这一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。
&#dddd; &#xhhhh; &#name;
以 HTML 为例,这三种转义序列都称作 character reference:
- 前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。
- 后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。
通过以上资料的提示,我开始查找 PHP 有关 Unicode 方面的信息,所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题,于是今天上午我又换了一种思路去开始查找,最后终于让我找到了解决方法。
原来 PHP 自带就有两个函数来解决这个问题,这两个函数分别是 html_entity_decode 和 mb_convert_encoding。
至于这两个函数的用法,大家可以看 PHP 官方的手册就明白,这个不多说了,下面是两个函数解决这个问题的写法。
$string = 'Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统'; $str1 = html_entity_decode($string); $str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');
转载请注明:隨習筆記 » PHP 中转换 SGML 类语言为真实中文字符