动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
电脑书籍下载:程序设计书籍 | 数据库教程书籍 | 平面与多媒体书籍 | 网络通讯书籍 | 系统管理书籍 | 网络安全书籍 | 认证考试书籍
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > Java教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ Java教程 ]的信息



本月文章推荐
.wait,notify,sleep,join和线程同.
.当主线程崩溃而其它线程继续运行.
.hivemind, pico, spring ioc.
.《J2EE核心模式》(DAO模式).
.JAVA入门教程:第五章.
.HashMap的效率.
.jrc0.4.00二进制发布版(Java客户.
.三步学会JavaSocket编程.
.Eclipse大整理之还回一个干净的E.
.工欲善其事必先利其器 Java开发工.
.用Eclipse进行XML开发.
.atan 方法.
.DOM属性用法速查手册.
.线程池与工作队列.
.iBatis框架batch处理优化.
.JFC/Swing活学活用之JLabel文字魔.
.Java语言的Socket编程(1).
.Drive 对象.
.基于Struts和Hibenate的发布系统.
.Hibernate 3 Annotations 进阶.

Java中文问题详解,底层编码解剖

发表日期:2008-1-5 |


  预备知识:

  1.字节和unicode
  Java内核是unicode的,就连class文件也是,但是很多媒体,包括文件/流的保存方式是使用字节流的。 因此Java要对这些字节流经行转化。char是unicode的,而byte是字节.Java中byte/char互转的函数在sun.io的包中间有。其中ByteToCharConverter类是中调度,可以用来告诉你,你用的Convertor。其中两个很常用的静态函数是。



  public static ByteToCharConverter getDefault() ;
  public static ByteToCharConverter getConverter(String encoding);
  假如你不指定converter,则系统会自动使用当前的Encoding,GB平台上用GBK,EN平台上用8859_1
  
  我们来就一个简单的例子:
  "你"的gb码是:0xC4E3 ,unicode是0x4F60
  你用:

  encoding="gb2312";
  byte b[]={(byte)'\u00c4',(byte)'\u00E3'};
  convertor=ByteToCharConverter.getConverter(encoding);
  char [] c=converter.convertAll(b);
  for(int i=0;i<c.length;c++)
  {
  ***.out.println(Integer.toHexString(c[i]));
  }
  打印出来是0x4F60
  但是假如使用8859_1的编码,打印出来是
  0x00C4,0x00E3
  例1
  反过来:

  encoding="gb2312";
  char c[]={'\u4F60'};
  convertor=ByteToCharConverter.getConverter(encoding);
  byte [] b=converter.convertAll(c);
  for(int i=0;i<b.length;c++)
  {
  ***.out.println(Integer.toHexString(b[i]));
  }
  打印出来是:0xC4,0xE3
  例2
  假如用8859_1就是0x3F,?号,表示无法转化     
  很多中文问题就是从这两个最简单的类派生出来的。而却有很多类不直接支持把Encoding输入,这给我们带来诸多不便。很多程序难得用encoding了,直接用default的encoding,这就给我们移植带来了很多困难
  
  2.UTF-8
  UTF-8是和Unicode一一对应的,其实现很简单
  
  7位的Unicode: 0 _ _ _ _ _ _ _
  11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
  16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
  21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
  大多数情况是只使用到16位以下的Unicode:
  你"的gb码是:0xC4E3 ,unicode是0x4F60
  我们还是用上面的例子
  例1:0xC4E3的二进制:
  1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 1
  由于只有两位我们按照两位的编码来排,但是我们发现这行不通,
  因为第7位不是0因此,返回"?"





  
  例2:0x4F60的二进制:
  0 1 0 0 1 1 1 1 0 1 1 0 0 0 0 0
  我们用UTF-8补齐,变成:
  11100100 10111101 10100000
  E4--BD-- A0
  于是返回0xE4,0xBD,0xA0

  3.String和byte[]
  String其实核心是char[],然而要把byte转化成String,必须经过编码。
  String.length()其实就是char数组的长度,假如使用不同的编码,很可能会错分,造成散字和乱码。
  例:

  byte [] b={(byte)'\u00c4',(byte)'\u00e3'};
  String str=new String(b,encoding);  
  假如encoding=8859_1,会有两个字,但是encoding=gb2312只有一个字
  这个问题在处理分页是经常发生

  4.Reader,Writer/InputStream,OutputStream
  Reader和Writer核心是char,InputStream和OutputStream核心是byte。
  但是Reader和Writer的主要目的是要把Char读/写InputStream/OutputStream
  一个reader的例子:
  文件test.txt只有一个"你"字,0xC4,0xE3


  String encoding=;
  InputStreamReader reader=new InputStreamReader(
  new FileInputStream("text.txt"),encoding);
  char []c=new char[10];
  int length=reader.read(c);
  for(int i=0;i<c.length;i++)
  ***.out.println(c[i]);
  假如encoding是gb2312,则只有一个字符,假如encoding=8859_1,则有两个字符

  2.我们要对Java的编译器有所了解:

上一篇:Java学习:了解什么叫做JavaBean 人气:352
下一篇:编程必备经典:Java常见问题集锦 人气:337
浏览全部Java的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-7-24 Sablog-X v2.0 预览版
2008-7-24 帝国备份王EmpireBak 2008 正式版
2008-7-24 网趣网上购物系统时尚版 v8.2
2008-7-24 纵横B2B电子商务系统XYECS!B2B v
2008-7-24 e路小说小偷 v1.2.0723
2008-7-24 凌风美女图片站程序 v2.2
2008-7-24 TOM15电影收索程序
2008-7-24 清风信息自动采集生成系统 v1.0
2008-7-24 QQ邮箱编辑器 v1.0 (小小菜刀ASP
2008-7-19 UltraEdit 简体中文增强版 14.10
2008-7-19 CentOS 5.2 i386 LiveCD
2008-7-19 Snapture多功能相机 v1.4
2008-7-19 iAcces中文输入法 v1.0Build016
2008-7-19 Cookbook烹饪秘籍 v2.5
2008-7-19 苹果专用DVD转换工具 v1.1.59汉化
2008-7-19 Modem修复软件ZiPhone修改版04.0
2008-7-19 AgileMessenger即时通讯工具美化
2008-7-19 Sketches画图软件 v0.7b6破解版


  发表评论
姓 名: 验证码:
内 容:
[ 汉字翻译拼音 ] [ 广告代码 ] [ 符号对照表 ] [ 进制转换 ] [ 经典小工具 ] [ 个税计算 ] [ 汉字简繁转换 ] [ 普通单位换算 ] [ 公制单位换算 ]
[ 生辰老黄历 ] [ 国内电话区号 ] [ 国家代码与域名缩写 ] [ 文字加密解密 ] [ 健康查询 ] [ 万年历 ] [ 手机号码查询 ] [ ip搜索 ] [ Google PR查询 ]
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵