动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > Java教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ Java教程 ]的信息

本月文章推荐
.规则与自由:为何选择CORBA和Java.
.JAVA 的interface观念 与C++ 多重.
.实战手记之Java is a joke.
.再议JAR文件.
.Javascript实例教程(20) OLE Aut.
.更好的捕捉鼠标事件.
.JavaServer Pages Second Edition.
.电话管理系统.java.
.使用UML编写Java应用程序 (1).
.JDBCTM 入门指南(1).
.新手入门之浅谈XML和HTML的关系.
.JavaServer Faces框架使用的.
.notyy 的junit教程.
.[JAVA100例]070、使用JDOM解析XML.
.用JavaScript编写程序实现文本的.
.关于Eclipse插件开发之定制向导(.
.利用缓存机制快速读取XML文件数据.
.Eclipse插件JBClipse 0.2 新版发.
.Hibernate 3.0 beta版本已经发布.
.Java咖啡馆(13): 终结者.

用Java编写HTML文件分析程序

发表日期:2008-1-5 |



  一、概述
    
    Web服务器的核心是对Html文件中的各标记(Tag)作出正确的分析,一种编程语言的解释程序也是对源文件中的保留字进行分析再做解释的。实际应用中,我们也经常会碰到需要对某一特定类型文件进行要害字分析的情况,比如,需要将某个HTML文件下载并同时下载与之相关的.gif、.class等文件,此时就要求对HTML文件中的标记进行分离,找出所需的文件名及目录。在Java出现以前,类似工作需要对文件中的每个字符进行分析,从中找出所需部分,不仅编程量大,且易出错。笔者在近期的项目中利用Java的输入流类StreamTokenizer进行HTML文件的分析,效果较好。在此,我们要实现从已知的Web页面下载HTML文件,对其进行分析后,下载该页面中包含的HTML文件(假如在Frame中)、图像文件和Class(Java Applet)文件。
    
    二、StreamTokenizer类
    
    StreamTokenizer即令牌化输入流的作用是将一个输入流中变成令牌流。令牌流中的令牌实体有三类:单词(即多字符令牌)、单字符令牌和空白(包括Java和C/C++中的说明语句)。
    
    StreamTokenizer类的构造器为: StreamTokenizer(InputStream in)
    
    该类有一些公有实例变量:ttype、sval和nval ,分别表示令牌类型、当前字符串值和当前数字值。当我们需要取得令牌(即HTML中的标记)之间的字符时,应访问变量sval。而读向下一个令牌的方法是调用nextToken()。方法nextToken()的返回值是int型,共有四种可能的返回:
    
    StreamTokenizer.TT_NUMBER: 表示读到的令牌是数字,数字的值是double型,可以从实例变量nval中读取。
    
    StreamTokenizer.TT_Word: 表示读到的令牌是非数字的单词(其他字符也在其中),单词可以从实例变量sval中读取。
    
    StreamTokenizer.TT_EOL: 表示读到的令牌是行结束符。
    
    假如已读到流的尽头,则nextToken()返回TT_EOF。
    
    开始调用nextToken()之前,要设置输入流的语法表,以便使分析器辨识不同的字符。WhitespaceChars(int low, int hi)方法定义没有意义的字符的范围。WordChars(int low, int hi)方法定义构造单词的字符范围。
    
    三、程序实现
    
    1、HtmlTokenizer类的实现
    
    对某个令牌流进行分析之前,首先应对该令牌流的语法表进行设置,在本例中,即是让程序分出哪个单词是HTML的标记。下面给出针对我们需要的HTML标记的令牌流类定义,它是StreamTokenizer的子类:
    
    
    import java.io.*;
    import java.lang.String;
    class HtmlTokenizer extends
    StreamTokenizer {
    //定义各标记,这里的标记仅是本例中必须的,
    可根据需要自行扩充
     static int HTML_TEXT=-1;
     static int HTML_UNKNOWN=-2;
     static int HTML_EOF=-3;
     static int HTML_IMAGE=-4;
     static int HTML_FRAME=-5;
     static int HTML_BACKGROUND=-6;
     static int HTML_APPLET=-7;
    
    boolean outsideTag=true; //判定是否在标记之中
    
     //构造器,定义该令牌流的语法表。
     public HtmlTokenizer(BufferedReader r) {
    super(r);
    this.resetSyntax(); //重置语法表
    this.wordChars(0,255); //令牌范围为全部字符
    this.ordinaryChar('< '); //HTML标记两边的分割符
    this.ordinaryChar('>');
     } //end of constrUCtor
    
     public int nextHtml(){
    int token; //令牌
    try{
    switch(token=this.nextToken()){
    case StreamTokenizer.TT_EOF:
    //假如已读到流的尽头,则返回TT_EOF
    return HTML_EOF;
    case '< ': //进入标记字段
    outsideTag=false;
    return nextHtml();
    case '>': //出标记字段
    outsideTag=true;
    return nextHtml();
    case StreamTokenizer.TT_WORD:
    //若当前令牌为单词,判定是哪个标记
    if (allWhite(sval))
     return nextHtml(); //过滤其中空格
    else if(sval.toUpperCase().indexOf("FRAME")
    !=-1 && !outsideTag) //标记FRAME
     return HTML_FRAME;
    else if(sval.toUpperCase().indexOf("IMG")
    !=-1 && !outsideTag) //标记IMG
     return HTML_IMAGE;
    else if(sval.toUpperCase().indexOf("BACKGROUND")
    !=-1 && !outsideTag) //标记BACKGROUND
     return HTML_BACKGROUND;
    else if(sval.toUpperCase().indexOf("APPLET")
    !=-1 && !outsideTag) //标记APPLET
     return HTML_APPLET;
    default:
    System.out.println ("Unknown tag: "+token);
    return HTML_UNKNOWN;
     } //end of case
    }catch(IOException e){
    System.out.println("Error:"+e.getMessage());}
    return HTML_UNKNOWN;
     } //end of nextHtml
    
    protected boolean allWhite(String s){//过滤所有空格
    //实现略
     }// end of allWhite
    
    } //end of class
    
    以上方法在近期项目中测试通过,操作系统为Windows NT4,编程工具使用Inprise Jbuilder3。
上一篇:JavaScript在E-mail中的应用 人气:541
下一篇:Java 电 子 商 贸 结 构 人气:409
浏览全部Java的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-10-10 企业网站智能管理系统(TZIMS) v6
2008-10-10 拓文asp.net网站内容管理系统 v6
2008-10-10 动网论坛PHP版 v2.0++ Build 081
2008-10-10 免费时代CMS v5.0
2008-10-10 wodig第四季中文DIGG社区 v4.1 b
2008-10-10 老Y文章管理系统 v2.2 bulid 081
2008-10-10 魔法盒动感相册 ASP+SQL版 v2.0
2008-10-10 Asoft签到管理系统 v3.0 Pack1
2008-10-10 哥特人音乐网潮流留言本 v1.1
2008-10-11 联系人分组工具 v1.1 中文破解版
2008-10-11 FaceMelter变脸 v2.0 汉化破解版
2008-10-11 PathTracker道路跟踪仪 v1.2 破解
2008-10-11 Rooms手机聊天室 v0.6.7 破解版
2008-10-11 RemoteDesktop远程桌面 v1.0 破解
2008-10-11 ProRemote远程调音台 v1.0.1 破解
2008-10-11 PicShare照片共享 v1.0.0 破解版
2008-10-11 Photogene照片编辑器 v1.5 汉化破
2008-10-11 WriteRoom共享文档 v1.0 破解版
  发表评论
姓 名: 验证码:
内 容:
站长工具:网站收录查询 | Google PR查询 | ALEXA排名查询 | CSS在线编辑器 | 广告代码 | js/vbs加密 | md5加密 | 进制转换 | UTF-8 转换工具 | Html转换js | Html转换asp | Html转换php | Html转换perl
实用工具:汉字翻译拼音 | 拼音字典 | 符号对照表 | 个税计算 | 实时汇率查询换算 | 经典小工具 | 汉字简繁转换 | 普通单位换算 | 公制单位换算 | 生辰老黄历 | 国内电话区号 | 国家代码与域名缩写 | 文字加密解密 | 健康查询 | 万年历 | 汉字横竖排版 | 手机号码查询 | 计算器 | ip搜索
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵
SEO対策 中国語教室 ホームページ作成