首页学院源码字体下载软件电脑书| 素材图片模版壁纸酷站图标笔刷纹理|小游戏博客QQ表情投票计数器短网址
动态网站制作指南
首页|网络编程|站长之家|网页制作|图形图象|操作系统|冲浪宝典|软件教学|网络办公|手机学院|邮件系统|网络安全|认证考试
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
迅雷 | 电驴 | Win7 | QQ空间 | 输入法 | Ghost | Word | Excel | asp | php | Sql | Dreamweaver | Javascript | css | photoshop | fireworks | Flash



当前位置 > 网站建设学院 > 网络编程 > C/C++教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket

解决网爬工具爬取页面信息出现乱码的问题


发表日期:2008-3-8 |


问题:
   网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象
原因:
   读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是Asp.Net的应用程序,它读过来的编码信息都是错误的。
解决:
   思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。
   方法:
   1:使用ASCII编码去读取页面内容。
   2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但Html标志是正确的,所有可以从HTML标志中得到编码的信息。
   3.用正确的编码类型去读取页面信息。
   假如哪位有更好的方法,请多赐教啊!   
   下面附上代码:    代码演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularEXPressions;
namespace charset
{
    class Program
    {
       
        static void Main(string[] args)
        {
            string url = "http://www.gdqy.edu.cn";
            GetCharset1(url);
            GetChartset2(url);             Console.Read();
        }
        // 通过HttpWebResponse直接获取页面编码
        static void GetCharset1(string url)
        {
            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();                 string charset = webResponse.CharacterSet;
                string contentEncoding = webResponse.ContentEncoding;
                string contentType = webResponse.ContentType;                 Console.WriteLine("context type:{0}", contentType);                 Console.WriteLine("charset:{0}", charset);                 Console.WriteLine("content encoding:{0}", contentEncoding);

                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,charset));
               
            }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
           
           
                     }
        //使用正则表达式获取页面编码
        static void GetChartset2(string url)
        {             try
            {
                string html = getHTML(url,Encoding.ASCII.EncodingName);
                Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");
                string enconding = null;
                if (reg_charset.IsMatch(html))
                {
                    enconding = reg_charset.Match(html).Groups["charset"].Value;
                    Console.WriteLine("charset:{0}",enconding);
                }
                else

                {
                    enconding = Encoding.Default.EncodingName;
                }
                //测试或取页面是否出现乱码
                //Console.WriteLine(getHTML(url,enconding));
             }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
       
        }
        //读取页面内容方法
        static string  getHTML(string url,string encodingName)
        {             try
            {
                WebRequest webRequest = WebRequest.Create(url);
                WebResponse webResponse = webRequest.GetResponse();
                Stream stream = webResponse.GetResponseStream();
                StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));
                string html = sr.ReadToEnd();
                return html;
            }
            catch (UriFormatException ex)
            {                 Console.WriteLine(ex.Message);

                return null;
            }
            catch (WebException ex)
            {                 Console.WriteLine(ex.Message);
                return null;
            }
        }
       
    }
}  http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312
第一个方法显示的内容是:
context type:text/html
charset:ISO-8859-1
content encoding:
第二个方法显示的内容是:
charset:gb2312 所以第一个方法获取的信息是错误的,第二个方法是对的。
为什么第一个方法获取的的编码格式是:ISO-8859-1呢?
我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。假如能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,假如那位那补上,那就太感谢了。
下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有爱好的朋友看一看。 CharacterSet源码
public string CharacterSet
{
      get
      {
            this.CheckDisposed();
            string text1 = this.m_HttpResponseHeaders.ContentType;
            if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))
            {
                  this.m_CharacterSet = string.Empty;
                  string text2 = text1.ToLower(CultureInfo.InvariantCulture);
                  if (text2.Trim().StartsWith("text/"))
                  {
                        this.m_CharacterSet = "ISO-8859-1";
                  }
                  int num1 = text2.IndexOf(";");
                  if (num1 > 0)
                  {

                        while ((num1 = text2.IndexOf("charset", num1)) >= 0)
                        {
                              num1 += 7;
                              if ((text2[num1 - 8] == ';') (text2[num1 - 8] == ' '))
                              {
                                    while ((num1 < text2.Length) && (text2[num1] == ' '))
                                    {
                                          num1++;
                                    }
                                    if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))
                                    {
                                          num1++;
                                          int num2 = text2.IndexOf(';', num1);
                                          if (num2 > num1)

                                          {
                                                this.m_CharacterSet = text1.Substring(num1, num2).Trim();
                                                break;
                                          }
                                          this.m_CharacterSet = text1.Substring(num1).Trim();
                                          break;
                                    }
                              }
                        }
                  }
            }
            return this.m_CharacterSet;
      } http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html
关注此文的读者还看过:
·2010-3-18 17:46:00 数据结构学习C++——树(总结)
·2010-3-18 17:44:35 二叉树实现源代码
·2010-3-18 17:42:54 在C语言中以编程的方式获取函数名
·2010-3-18 17:42:37 C程序开发经典实例之2
·2010-3-18 17:42:25 深入浅出Win32多线程程序设计之基本概念
浏览全部C/C++的内容 PS笔刷下载 39种不同语言在线翻译
  发表评论
姓 名: 验证码: [ 查看评论 ]
内 容:
教程搜索服务
项目外包信息
·网站设计 整体要求简洁大气
·logo设计 500元
·全部触摸屏控制链接省地税系统软
·某爱好者俱乐部网站 10000元
·合肥工作室急寻兼职美工及程序员
·帝国网站程序修改,模板已经做好
·电子交易海报设计 2000元
·艺术教育类网站 2000元
·flash多媒体播放器
·做一个公司网页
·服装批发网站页面设计外包 1500
·平面设计公司的网站
·找兼职美工、程序员
·品牌家居内衣商城网站 2万
·请人制作一个FLASH
·.net网站栏目外包
·沈阳新娘化妆工作室页面DIV
·找兼职程序员合作
·兼职网设计师 长期合作
发布信息 浏览信息
邮件订阅服务
输入你的邮件地址,你将不会错过任何关于<C/C++教程>的内容


Delivered by FeedBurner

网络编程文章分类
ASP教程
ASP实例
ASP技巧
ASP文摘
PHP教程
PHP技巧
PHP实例
PHP文摘
JSP教程
JSP技巧
JSP实例
JSP文摘
ASP.NET教程
ASP.NET技巧
ASP.NET实例
ASP.NET应用
xml教程
xsl教程
xml技巧
C#教程
C#应用
Delphi教程
Perl教程
Shell教程
Ajax教程
Visual Basic教程
Java教程
J2EE/J2ME教程
C/C++教程
移动解决方案
移动短信技术
移动行业动态
软件工程
站长工具:Google PR查询|网站速度测试|CSS在线编辑器|OPEN参数生成器|弹出式窗口代码产生器|密码登录生成器|在线按钮生成器|Meta标签生成器|邮箱图标在线生成|多色彩特效字代码生成器|网页代码调试器|在线FTP登陆|Flash取色器|配色代码对照表|配色辞典|CSS生成器|CSS在线压缩|广告代码|框架网页代码生成器|js/vbs加密|md5加密|进制转换|UTF-8 转换工具|在线调色板|Html转换js|Html转换asp|Html转换php|Html转换perl
实用工具:汉字翻译拼音|拼音字典|在线翻译|天气预报|火星文|在线网速测试|符号对照表|个税计算|公积金贷款计算|购房银行按揭利率计算|实时汇率查询换算|经典小工具|汉字简繁转换|普通单位换算|公制单位换算|生辰老黄历|国内电话区号|国家代码与域名缩写|文字加密解密|元素周期表|健康查询|世界时间|全国各地车牌查询|全国车辆交通违章查询|万年历|二十四节气|汉字横竖排版|手机号码查询|计算器|ip搜索
广告刊登 | 版权声明 | 联系我们 | 加入收藏 | RSS订阅
Copyright © 2000-2010 www.knowsky.com All rights reserved | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報 マッサージ 求人
フットサル大会 探偵 プリザーブドフラワー 中国語
SEO対策 コーチ ホームページ作成 アクセサリー 通販
過払い請求 現金化 債務整理 過払い金返還請求