动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > C/C++教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ C/C++教程 ]的信息

本月文章推荐
.Delphi中用FastReport制作报表.
.编程者说之C语言.
.关于编程风格的讨论.
.C++习题与解析-友元.
.用 DataSet 对象更新数据.
.员工管理系统(链表).
.C++对象布局及多态实现之成员函数.
.Scheduling (调度).
.费尔马二平方素数.
.C语言程序设计基础之联合.
.2004年计算机等级考试二级C语言试.
.Visual FoxPro 9.0更强大了.
.用PcommPro开发串行通信程序.
.加速编译.
.七年IT奋斗纪实及感悟.
.理论与实践相结合备战C上机考试.
.一个画抛物线的程序.
.C++中结构体的的慨念和使用方法.
.在程序中重启自己的一种方法.
.C语言初学者入门讲座 第九讲 数组.

如何利用Xerces C++正确处理XML文档中的中文

发表日期:2008-3-8 |


下载本文示例代码

1. 背景介绍

Apache的Xerces C++是广大c/c++程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码,故深受广大c/c++程序员的欢迎。

Xerces C++可以到以下网站下载:
1) http://xml.apache.org/
2) http://www.vckbase.com/tools 2. 问题描述

根据软件开发的要求,作者开发了一个文件特征识别软件,该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces C++作为XML解析器。但发现出了一个严重的问题:被解析的XML文件中不能包含中文,否则中文将不能正确的解析。作者研究了Xerces C++提供的例子程序,发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces C++本身是支持中文的。
XML编码: <pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46" /> </pdf>SAXPrint程序解析结果:<pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46"></magic> </pdf> 为此,作者曾经在IBM的中文网站发现一篇文章《如何利用Xerces-C++解析包含中文字符的XML文档》并将其所描述的办法应用到程序中。但后来由于机器发生故障,硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子,而且由于当时捡现成的没有专心研究其实现方法,故不得不仔细分析Xerces C++提供的源代码,自己动手解决中文问题。为了今后广大C++程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。假如谁有更好的解决办法不要忘记告诉我。

3. 原因分析

上面的例子里,程序将“文档”两个中文字符解析成了乱码。但DOMPrint程序确能够正确解析。这表明Xerces C++对国际编码肯定是支持的。作者通过对DOMPrint和SAXPrint两个程序的比较跟踪发现问题的根本就是XMLFormatter设置的问题。由于SAX是基于事件的,大多数使用者只是简单的解析XML文档,XMLFormatter的使用比较麻烦。而DOMPrint也是通过标准的输出程序输出的屏幕上的,我们不能直接使用输出结果。
由于XML解析器解析的字符串都是XMLCh格式的,一个字符占用一个字节,而汉字字符确要占用两个字节。故若不做适当的转换,汉字的输出结果就变成乱码了。

4. 解决办法

找到原因就有解决问题的方法了,明显的需要一个把解析出来的XMLCh转换成普通的字符串。这是解析,假如我们需要自己写入XML文档也有一个把普通字符串转换为XMLCh的过程。我把这两个转换过程封装在了一个名为“XMLStringTranslate”的类中。使用如下:
void SAXMagicHandlers::startElement(const XMLCh* const name,AttributeList& attributes) { XMLStringTranslate stringTranslate("gb2312"); string strName=stringTranslate.translate(name);//得到可包含汉字字符的普通字符串 string strValue="pdf文档"; XMLCh * value= stringTranslate.translate(strValue.c_str());//将普通字符串转换成XMLCh串 }采用XMLStringTranslate后的实际运行结果: <pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46"></magic> </pdf> 非凡说明:
由于为了防止内存释放问题,将普通字符串转换成XMLCh *的translate函数返回的是类的一个成员变量,故下面的代码是不答应的: XMLCh * value1= stringTranslate.translate("测试1"); XMLCh * value2= stringTranslate.translate("测试2"); 这样使用的结果是value1和value2的值将是一样的(因为其内存地址根本就是一样的)。正确的使用方法是通过内存拷贝或则其他方法,将value1的值保存起来或则及时使用,否则value2将影响value1的值。


5. 结束语

目前,许多企业已经或者正在采用Xerces C++开发XML的应用系统,相信在应用的过程中会碰到各种问题,欢迎有爱好的朋友与我联系,共同交流。
上一篇:如何获取打印机参数 人气:450
下一篇:如何将多个C语言模块组合成一个程序 人气:545
浏览全部C/C++的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-10-12 team论坛 v2.0.4 bulid 080916 A
2008-10-12 Roclog v3.1.6
2008-10-12 SupeV v1.0.1 简体中文 GBK
2008-10-12 NetCMS v1.6.0.1010 正式版
2008-10-12 PHP考试系统PPFrame v1.2.7
2008-10-12 LPAS个人相册 v1.6.3
2008-10-12 快问仿百度知道系统 动态-静态-互
2008-10-12 方卡广告防点击系统 V1.0 GB2312
2008-10-12 泡菜内容管理系统[PCMS] v1.0 Bu
2008-10-11 联系人分组工具 v1.1 中文破解版
2008-10-11 FaceMelter变脸 v2.0 汉化破解版
2008-10-11 PathTracker道路跟踪仪 v1.2 破解
2008-10-11 Rooms手机聊天室 v0.6.7 破解版
2008-10-11 RemoteDesktop远程桌面 v1.0 破解
2008-10-11 ProRemote远程调音台 v1.0.1 破解
2008-10-11 PicShare照片共享 v1.0.0 破解版
2008-10-11 Photogene照片编辑器 v1.5 汉化破
2008-10-11 WriteRoom共享文档 v1.0 破解版
  发表评论
姓 名: 验证码:
内 容:
站长工具:网站收录查询 | Google PR查询 | ALEXA排名查询 | CSS在线编辑器 | 广告代码 | js/vbs加密 | md5加密 | 进制转换 | UTF-8 转换工具 | Html转换js | Html转换asp | Html转换php | Html转换perl
实用工具:汉字翻译拼音 | 拼音字典 | 符号对照表 | 个税计算 | 实时汇率查询换算 | 经典小工具 | 汉字简繁转换 | 普通单位换算 | 公制单位换算 | 生辰老黄历 | 国内电话区号 | 国家代码与域名缩写 | 文字加密解密 | 健康查询 | 万年历 | 汉字横竖排版 | 手机号码查询 | 计算器 | ip搜索
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵
SEO対策 中国語教室 ホームページ作成