动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > Java教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ Java教程 ]的信息

本月文章推荐
.Sun修正5个Java“高危”缺陷.
.Java ME中一个通用的游戏信息框架.
.设计不受传统网络限制的 P2P 系统.
.J2EE、CORBA、DNA三种主流中间件.
.JAVA程序员必读:基础篇(2.a)语言.
.高级 DAO 编程.
.利用Java 编写手机应用程序.
.浅析Java与C#的事件处理机制.
.构建N840手机应用开发环境.
.如何在Java中实现Job Scheduling.
.如何在Java应用程序中读取8位和2.
.轻松搞定Java内存泄漏.
.银行取款机Cash 系统源程序.
.Apache Tomcat 5.0.2x 的虚拟目录.
.Java入门-浅析Java学习从入门到.
.Java语言的Socket类.
.Java设计模式例子FactoryMethodP.
.JDBC到底是怎么连上数据库的?.
.用JVM工具接口创建调试和分析代理.
.JAVA内存泄漏,走开!.

Java中文处理学习笔记——Hello Unicode

发表日期:2008-1-5 |


版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/hello_unicode.Html

要害词:Linux Java mutlibyte encoding locale i18n i10n chinese  ISO-8859-1 GB2312 BIG5 GBK UNICODE

内容摘要:

    不知道你有没有这样的感受:为什么PHP很少有乱码问题而用Java做WEB应用却这么麻烦呢?为什么在Google上能用简体中文查到繁体中文,甚至日文的结果?而且用Google的时候发现它居然能自动根据我使用浏览器的语言选择自动调出中文界面?

    很多国际化应用的让我理解了这么一个道理:Unicode是为更方便的做国际化应用设计的,而Java核心的字符是基于UNICODE的,这一机制为应用提供了对中文“字”的控制(而不是字节)。但假如不仔细理解其中的规范,这种自由反而会成为累赘,从而导致更多的乱码问题:

    1. 关于字符集的一些基本概念;
    2. 试验1:显示系统的环境设置和支持的编码方式;
    3. 试验2:系统缺省编码方式对Java应用的输入输出影响;
    4. 试验3:在WEB应用中输出和输出中的字符集问题;

    关于字符集的预备知识:
    ISO-8859-1 GB2312 BIG5 GBK GB18030 UNICODE 为什么会有这么多字符集编码方式?

    注重:以下说明不是严格定义,一些比喻仅作为方便理解使用。

    假设一个字符就是棋盘上的一个棋子,有其固定的坐标,假如需要区别所有的字符,就需要有足够的棋格容纳不同的“字符”。 

    英文和欧洲其他语言的单字节字符集(SingleByte Charsets):
    首先对于ISO-8859系列的字符集都想象成一个:2^8 = 16 * 16 = 256个格子的棋盘,这样所有的西文字符(英文)用这样一个16×16的坐标系就基本可以覆盖全了。而英文实际上只用其中小于128(\x80)的部分就够了。利用大于128部分的空间的不同定义规则形成了真对其他欧洲语言的扩展字符集:ISO-8859-2 ISO-8859-4等……

    ISO-8859-1
    ISO-8859-7
    其他语言
    英文 其他西欧字符   ōē
    英文 希腊字符
      μγ 英文 其他单字节   字符集


    GB2312 BIG5 SJIS等多字节字符集(MultiByte Charsets):

    对于亚洲语言来说:汉字这么多,用这么一个256格的小棋盘肯定放不下,所以要区别成千上万的汉字解决办法就是用2个字节(坐标)来定位一个“字”在棋盘上的位置,将以上规则做一个扩展:

    • 假如第1个字符是小于128(\x80)的仍和英文字符集编码方式保持兼容;
    • 假如第1个字符是大于128(\x80)的,就当成是汉字的第1个字节,这个自己和后面紧跟的1个字节组成一个汉字;

    其结果相当于在位于128以上的小棋格里每个小棋格又划分出了一个16×16的小棋盘。这样一个棋盘中的格子数(可能容纳的字符数)就变成了128 + 128 * 256。按照类似的方式有了简体中文的GB2312标准,繁体中文的BIG5字符集和日文的SJIS字符集等,GB2312字符集包含大约有六仟多个常用简体汉字。

    简体中文
    日文SJIS
    繁体中文
    英文 简
    体     中
        文 英文 日
      文           英文

      繁     体
    中 文

    由此可以看出,所有这些从ASCII扩展式的编码方式中:英文部分都是兼容的,但扩展部分的编码方式是不兼容的,虽然很多字在3种体系中写法一致(比如“中文”这2个字)但在相应字符集中的坐标不一致,所以GB2312编写的页面用BIG5看就变得面目全非了。而且有时候经常在浏览其他非英语国家的页面时(比如包含有德语的人名时)经常出现希奇的汉字,其实就是扩展位的编码冲突造成的。

    我把GBK和GB18030理解成一个小UNICODE:GBK字符集是GB2312的扩展(K),GBK里大约有贰万玖仟多个字符,除了保持和GB2312兼容外,繁体中文字,甚至连日文的假名字符也能显示。而GB18030-2000则是一个更复杂的字符集,采用变长字节的编码方式,能够支持更多的字符。关于汉字的编码方式比较具体的定义规范可以参考:
    http://www.unihan.com.cn/cjk/ana17.htm

    ASCII(英文) ==> 西欧文字 ==> 东欧字符集(俄文,希腊语等) ==> 东亚字符集(GB2312 BIG5 SJIS等)==> 扩展字符集GBK GB18030这个发展过程基本上也反映了字符集标准的发展过程,但这么随着时间的推移,尤其是互联网让跨语言的信息的交互变得越来越多的时候,太多多针对本地语言的编码标准的出现导致一个应用程序的国际化变得成本非常高。尤其是你要编写一个同时包含法文和简体中文的文档,这时候一般都会想到要是用一个通用的字符集能够显示所有语言的所有文字就好了,而且这样做应用也能够比较方便的国际化,为了达到这个目标,即使应用牺牲一些空间和程序效率也是非常值得的。UNICODE就是这样一个通用的解决方案。


    上一篇:用JBuilder实现类似VisualStudio的宏扩展功能 人气:397
    下一篇:用JDOM简化XML编程 人气:635
    浏览全部Java的内容 Dreamweaver插件下载 常用网页广告代码全集
      最新网站源码 最新软件下载
    2008-12-2 OpenPNE中文 v2.12.5 for win 中
    2008-12-2 谷秋精品课程软件课程版 v2.3
    2008-12-2 晴天电影系统(带一键迅雷/自定义
    2008-12-2 QQip138闪字程序
    2008-12-2 SmartWeb企业智能建站系统 v1.0.2
    2008-12-2 梦想不死个人主页 v2009
    2008-12-2 开良ASP小偷程序生成器 v1.1
    2008-12-2 toolxp.cnalexa世界排名查询 php
    2008-12-2 腾讯留言板 v1.3
    2008-11-29 Tencent Traveler 4.4
    2008-11-29 龙卷风网络收音机 v3.0.0.0
    2008-11-29 Intel Chipset Software Install
    2008-11-29 TweakVI 1.0 Build 1100
    2008-11-29 Opera 9.62 Build 10469
    2008-11-29 MPlayer WW编译版 SVN-r28044(20
    2008-11-29 NetTools网络工具v1.0.0破解版
    2008-11-29 3DGallery三维体验1.1破解版
    2008-11-29 SecretBook保密本v1.0破解版
      发表评论
    姓 名: 验证码:
    内 容:
    站长工具:网站收录查询 | Google PR查询 | ALEXA排名查询 | CSS在线编辑器 | OPEN参数生成器 | 弹出式窗口代码产生器 | 密码登录生成器 | 在线按钮生成器 | Meta标签生成器 | 多色彩特效字代码生成器 | 网页代码调试器 | 在线FTP登陆 | Flash取色器 | 配色代码对照表 | 配色辞典 | CSS生成器 | 广告代码 | 框架网页代码生成器 | js/vbs加密 | md5加密 | 进制转换 | UTF-8 转换工具 | 在线调色板 | Html转换js | Html转换asp | Html转换php | Html转换perl
    实用工具:汉字翻译拼音 | 拼音字典 | 符号对照表 | 个税计算 | 实时汇率查询换算 | 经典小工具 | 汉字简繁转换 | 普通单位换算 | 公制单位换算 | 生辰老黄历 | 国内电话区号 | 国家代码与域名缩写 | 文字加密解密 | 元素周期表 | 健康查询 | 世界时间 | 万年历 | 二十四节气 | 汉字横竖排版 | 手机号码查询 | 计算器 | ip搜索
    业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
    Copyright © 2000-2009 www.knowsky.com All rights reserved | 沪ICP备05001343号
    ホームページ制作 不動産検索システム 求人情報
    防水工事·改修工事 フットサル大会 探偵
    SEO対策 中国語教室 ホームページ作成