首页学院源码字体下载软件电脑书| 素材图片模版壁纸酷站图标笔刷纹理|小游戏博客QQ表情投票计数器JoyRssMail
动态网站制作指南
首页|网络编程|站长之家|网页制作|图形图象|操作系统|冲浪宝典|软件教学|网络办公|手机学院|邮件系统|网络安全|认证考试
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > C/C++教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket

解决网爬工具爬取页面信息出现乱码的问题


发表日期:2008-3-8 |


问题:
   网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象
原因:
   读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是Asp.Net的应用程序,它读过来的编码信息都是错误的。
解决:
   思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。
   方法:
   1:使用ASCII编码去读取页面内容。
   2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但Html标志是正确的,所有可以从HTML标志中得到编码的信息。
   3.用正确的编码类型去读取页面信息。
   假如哪位有更好的方法,请多赐教啊!   
   下面附上代码:    代码演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularEXPressions;
namespace charset
{
    class Program
    {
       
        static void Main(string[] args)
        {
            string url = "http://www.gdqy.edu.cn";
            GetCharset1(url);
            GetChartset2(url);             Console.Read();
        }
        // 通过HttpWebResponse直接获取页面编码
        static void GetCharset1(string url)
        {
            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();                 string charset = webResponse.CharacterSet;
                string contentEncoding = webResponse.ContentEncoding;
                string contentType = webResponse.ContentType;                 Console.WriteLine("context type:{0}", contentType);                 Console.WriteLine("charset:{0}", charset);                 Console.WriteLine("content encoding:{0}", contentEncoding);

                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,charset));
               
            }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
           
           
                     }
        //使用正则表达式获取页面编码
        static void GetChartset2(string url)
        {             try
            {
                string html = getHTML(url,Encoding.ASCII.EncodingName);
                Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");
                string enconding = null;
                if (reg_charset.IsMatch(html))
                {
                    enconding = reg_charset.Match(html).Groups["charset"].Value;
                    Console.WriteLine("charset:{0}",enconding);
                }
                else

                {
                    enconding = Encoding.Default.EncodingName;
                }
                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,enconding));
             }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
       
        }
        //读取页面内容方法
        static string  getHTML(string url,string encodingName)
        {             try
            {
                WebRequest webRequest = WebRequest.Create(url);
                WebResponse webResponse = webRequest.GetResponse();
                Stream stream = webResponse.GetResponseStream();
                StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));
                string html = sr.ReadToEnd();
                return html;
            }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);

                return null;
            }
            catch (WebException ex)
            {                 Console.WriteLine(ex.Message);
                return null;
            }
        }
       
    }
}  http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312
第一个方法显示的内容是:
context type:text/html
charset:ISO-8859-1
content encoding:
第二个方法显示的内容是:
charset:gb2312 所以第一个方法获取的信息是错误的,第二个方法是对的。
为什么第一个方法获取的的编码格式是:ISO-8859-1呢?
我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。假如能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,假如那位那补上,那就太感谢了。
下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有爱好的朋友看一看。 CharacterSet源码
public string CharacterSet
{
      get
      {
            this.CheckDisposed();
            string text1 = this.m_HttpResponseHeaders.ContentType;
            if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))
            {
                  this.m_CharacterSet = string.Empty;
                  string text2 = text1.ToLower(CultureInfo.InvariantCulture);
                  if (text2.Trim().StartsWith("text/"))
                  {
                        this.m_CharacterSet = "ISO-8859-1";
                  }
                  int num1 = text2.IndexOf(";");
                  if (num1 > 0)
                  {

                        while ((num1 = text2.IndexOf("charset", num1)) >= 0)
                        {
                              num1 += 7;
                              if ((text2[num1 - 8] == ';') (text2[num1 - 8] == ' '))
                              {
                                    while ((num1 < text2.Length) && (text2[num1] == ' '))
                                    {
                                          num1++;
                                    }
                                    if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))
                                    {
                                          num1++;
                                          int num2 = text2.IndexOf(';', num1);
                                          if (num2 > num1)

                                          {
                                                this.m_CharacterSet = text1.Substring(num1, num2).Trim();
                                                break;
                                          }
                                          this.m_CharacterSet = text1.Substring(num1).Trim();
                                          break;
                                    }
                              }
                        }
                  }
            }
            return this.m_CharacterSet;
      } http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html
关注此文的读者还看过:
·乌托邦式的接口和实现分离技术
·用C实现exp函数!
·经典c程序100例==1--10
·Linux 下的多进程编程
·在C++Builder中使用DLL
·C++操作符重载的变态用途之子类转换
·在C++程序中添加逻辑流程控制
·C++启蒙之C++中的类
·C语言入门之数组(1)
·制作用于日期时间型字段的DELPHI数据感知控件

浏览全部C/C++的内容 PS笔刷下载 39种不同语言在线翻译
文章搜索服务





邮件订阅服务
输入你的邮件地址,你将不会错过任何关于<C/C++教程>的内容
Powered by JoyRssMail

网络编程文章分类

本月文章推荐
. 用VisualC++6.0递归查找目录树.
. Windows 窗体之创建动态上下文菜单.
. 使用Windows系统提供的IP控件.
. 全屏幕编辑软件的编写(C语言)01.
. 用PcommPro开发串行通信程序.
. C++Builder动态更改自定义打印纸张.
. C语言中的指针和内存泄漏.
. 学用C++的体会.
. 螺旋矩阵.
. 数据结构学习C++——二叉树.
. 守护进程的创建.
. 使用ASP.NET Atlas开发检测密码强度.
. C语言初学者入门讲座 第十一讲 指针.
. CGI脚本入门学习.
. C++ Builder 初学问与答(四).
. ListBox编程两例.
. C++辨析系列谈.
. C语言的数据类型.
. 256色汉字显示程序.
. 使用C++ Buider制作自绘画列表.
. C++编程技巧(二).
. Snake.Net中的线性表.
. LINUX C语言开发之2.
. 在系统菜单里添加菜单项和相应事件.
. Windows中的消息详细列表.
. CB设置环境选项设置.
. TQuery的参数设置.
. 如何实现在一个Dbgrid中显示多数据.
. 高质量C++/C编程指南 -- .
. new和delete导致的内存分配问题详解.
  最新网站源码 最新软件下载
2009-7-4 84网址站 v4.10
2009-7-4 仿webmasterhome 网站收录查询 v
2009-7-4 NOCC v1.8
2009-7-4 易和阳光购物商城 v1.4 Access F
2009-7-4 OK伯乐招聘求职系统
2009-7-3 MyBB v1.4.8
2009-7-3 miniBB v2.3
2009-7-3 Modoer多功能点评系统 v1.1.0 Bu
2009-7-3 Modoer多功能点评系统 v1.1.0 Bu
2009-4-4 SharePoint Designer 2007
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
2009-3-20 Internet Explorer 8 简体中文正
  发表评论
姓 名: 验证码: [ 查看评论 ]
内 容:
 
站长工具:Google PR查询|网站速度测试|CSS在线编辑器|OPEN参数生成器|弹出式窗口代码产生器|密码登录生成器|在线按钮生成器|Meta标签生成器|邮箱图标在线生成|多色彩特效字代码生成器|网页代码调试器|在线FTP登陆|Flash取色器|配色代码对照表|配色辞典|CSS生成器|CSS在线压缩|广告代码|框架网页代码生成器|js/vbs加密|md5加密|进制转换|UTF-8 转换工具|在线调色板|Html转换js|Html转换asp|Html转换php|Html转换perl
实用工具:汉字翻译拼音|拼音字典|在线翻译|火星文|在线网速测试|符号对照表|个税计算|公积金贷款计算|购房银行按揭利率计算|实时汇率查询换算|经典小工具|汉字简繁转换|普通单位换算|公制单位换算|生辰老黄历|国内电话区号|国家代码与域名缩写|文字加密解密|元素周期表|健康查询|世界时间|全国各地车牌查询|全国车辆交通违章查询|万年历|二十四节气|汉字横竖排版|手机号码查询|计算器|ip搜索
广告刊登 | 版权声明 | 联系我们 | 加入收藏 | RSS订阅
Copyright © 2000-2009 www.knowsky.com All rights reserved | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵
SEO対策 コーチ ホームページ作成
過払い請求 現金化 債務整理 現金化