当前位置:园子博客 » 网页标准 » 定义语言编码

定义语言编码

1月 6th, 2009 | Filed under 网页标准 | 共有5,769次浏览

语言编码的作用
为了被浏览器正确解释和通过W3C代码校验,所有的xhtml文档都必须声明它们所使用的编码语言,国内大部分网站一般使用gb2312(简体中文),如果你制作的中多国语言页面也有可能用Unicode、ISO-8859-1等语言编码,这些要根据你的需要来定义。

例如:
<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />

一般网站按照上面的方法定义就可以了。但XML文档并不是这样定义语言编码的,我们在Macromedia.com的首页代码第一行就可以看见类似这样的语句:
<?xml version=”1.0″ encoding=”gb2312″?>

这种方法也是W3C抽推荐使用的定义方法。那么为什么我们不直接采用这种方法呢?原因是一些浏览器对标准的支持不完善,不能正确理解这样的定义方法,比如微软的IE6.0,所以在目前过渡方案下,我们依然推荐使用meta方式。当然,你也可以两种方法都写。

考虑到有些用户使用的是老版本的浏览器,我们可以加上这么一句,以保证各种浏览器都能正确解释页面:
<meta http-equiv=”Content-Language” content=”gb2312″ />

注意:在上面声明语句的最后,你看到有一个斜杠”/”,这和我们以前的HTML4.0的代码写法不同。原因是XHTML语法规则要求所有的标识都必须有开始和结束。例如<body>和</body>、<p>和</p>等,对于不成对的标识(也叫单标签),要求在标识最后加一个空格,然后跟一个”/”。例如<br>写成<br />、<img>写成<img />,加空格的原因是避免代码连在一起有的浏览器不识别。

延伸阅读:常用的四种中文编码

  1. GB2312:简体中文编码,一个汉字占用2字节,在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时,这些内容可能无法被正确编码。
  2. BIG5:繁体中文编码。主要在台湾地区采用。
  3. GBK:支持简体及繁体中文,但对他国非拉丁字母语言还是有问题。
  4. UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。
目前还没有任何评论.
您必须在 登录 后才能发布评论.