动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > Java教程
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ Java教程 ]的信息

本月文章推荐
.Java.util包简介如何开发应用之一.
.绕过Java开发瓶颈:解析EJB.
.Rational Rose介绍材料.
.跳入JAVA.
.编写自己的writeObject()和readO.
.创建本机、跨平台 GUI 应用程序.
.Java和C++的基本差异.
.使用Java蓝牙无线通讯技术API概述.
.学习在JDK1.4.2上构造应用程序.
.struts构建文件上传(2).
.深入了解Java 5.0的垃圾收集.
.java访问com组件_jacob使用指南.
.final类.
.JavaBean与EJB有何不同.
.用JavaMail显示复合邮件的内容.
.调整 JavaTM I/O 性能.
.Java Learning Path (一)、工具.
.Java核心代码例程之:(EJB) Home.
.John Hancock互助人寿保险公司.
.reverse 方法.

Lucene索引文件格式的规格定义

发表日期:2008-1-5 |



  本文定义了LUCene(版本1.3)用到的索引文件的格式。
  
  Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。假如这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。
  
  随着Lucene不断发展,本文也应该更新。不同语言写成的Lucene实现版本应当尽力遵守文件格式,也必须产生本文的新版本。
  
  本文同时提供兼容性批注,描述文件格式上与前一版本不同的地方。
  
  定义 
  Lucene中最基础的概念是索引(index),文档(document.,域(field)和项(term)。
  
  索引包含了一个文档的序列。
  
  ?  文档是一些域的序列。
  
  ?  域是一些项的序列。
  
  ?  项就是一个字串。
  
  存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。
  
  倒排索引
  为了使得基于项的搜索更有效率,索引中项是静态存储的。Lucene的索引属于索引方式中的倒排索引,因为对于一个项这种索引可以列出包含它的文档。这刚好是文档与项自然联系的倒置。
  
  域的类型 
  Lucene中,域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。
  
  域的文本可能被分解许多项目而被索引,或者就被用作一个项目而被索引。大多数的域是被分解过的,但是有些时候某些标识符域被当做一个项目索引是很有用的。
  
  段(Segment) 
  Lucene索引可能由多个子索引组成,这些子索引成为段。每一段都是完整独立的索引,能被搜索。索引是这样作成的:
  
  1.  为新加入的文档创建新段。
  
  2.  合并已经存在的段。
  
  搜索时需要涉及到多个段和/或者多个索引,每一个索引又可能由一些段组成。
  
  文档号(document.nbspNumber) 
  内部的来说,Lucene用一个整形(interger)的文档号来指示文档。第一个被加入到索引中的文档就是0号,顺序加入的文档将得到一个由前一个号码递增而来的号码。
  
  注重文档号是可能改变的,所以在Lucene外部存储这些号码时必须小心。非凡的,号码的改变的情况如下:
  
  ?  只有段内的号码是相同的,不同段之间不同,因而在一个比段广泛的上下文环境中使用这些号码时,就必须改变它们。标准的技术是根据每一段号码多少为每一段分配一个段号。将段内文档号转换到段外时,加上段号。将某段外的文档号转换到段内时,根据每段中可能的转换后号码范围来判定文档属于那一段,并减调这一段的段号。例如有两个含5个文档的段合并,那么第一段的段号就是0,第二段段号5。第二段中的第三个文档,在段外的号码就是8。
  
  ?  文档删除后,连续的号码就出现了间断。这可以通过合并索引来解决,段合并时删除的文档相应也删掉了,新合并而成的段并没有号码间断。
  
  绪论
  索引段维护着以下的信息:
  
  ?  域集合。包含了索引中用到的所有的域。
  
  ?  域值存储表。每一个文档都含有一个“属性-值”对的列表,属性即为域名。这个列表用来存储文档的一些附加信息,如标题,url或者访问数据库的一个ID。在搜索时存储域的集合可以被返回。这个表以文档号标识。
  
  ?  项字典。这个字典含有所有文档的所有域中使用过的的项,同时含有使用过它的文档的文档号,以及指向使用频数信息和位置信息的指针。
  
  ?  项频数信息。对于项字典中的每个项,这些信息包含含有这个项的文档的总数,以及每个文档中使用的次数。
  
  ?  项位置信息。对于项字典中的每个项,都存有在每个文档中出现的各个位置。
  
  ?  Normalization factors. For each field in each document. a value is stored that is multiplied into the score for hits on that field. 标准化因子。对于文档中的每一个域,存有一个值,用来以后乘以这个这个域的命中数(hits)。
  
  ?  被删除的文档信息。这是一个可选文件,用来表明那些文档已经删除了。
  
  接下来的各部分部分具体描述这些信息。
  
  文件的命名(File Naming)
  同属于一个段的文件拥有相同的文件名,不同的扩展名。扩展名由以下讨论的各种文件格式确定。
  
  一般来说,一个索引存放一个目录,其所有段都存放在这个目录里,尽管我们不要求您这样做。
  
  基本数据类型(Primitive Types)
  Byte
  
  最基本的数据类型就是字节(byte,8位)。文件就是按字节顺序访问的。其它的一些数据类型也定义为字节的序列,文件的格式具有字节意义上的独立性。
  
  UInt32
  
  32位无符号整数,由四个字节组成,高位优先。
  
  UInt32 --> 4
  
  Uint64
  
  64位无符号整数,由八字节组成,高位优先。
  
  UInt64 --> 8
  
  VInt
  
  可变长的正整数类型,每字节的最高位表明还剩多少字节。每字节的低七位表明整数的值。因此单字节的值从0到127,两字节值从128到16,383,等等。
  
  VInt 编码示例
  
  value
   First byte
   Second byte
   Third byte 
  0
   00000000
  
  1
   00000001
  
  2
   00000010 
  ...
  
  127
   01111111
  
  128
   10000000
   00000001
   
  129
   10000001
   00000001
   
  130
   10000010
   00000001
  ...
  
  16,383
   11111111
   01111111
  
  16,384
   10000000
   10000000
   00000001
  
  16,385
   10000001
   10000000
   00000001
  
  ...
  
  这种编码提供了一种在高效率解码时压缩数据的方法。
  
  Chars
  
  Lucene输出UNICODE字符序列,使用标准UTF-8编码。
  
  String
  
  Lucene输出由VINT和字符串组成的字串,VINT表示字串长,字符串紧接其后。
  
  String --> VInt, Chars
  
  索引包含的文件(Per-Index Files)
  这部分介绍每个索引包含的文件。
  
  Segments文件
  索引中活动的段存储在Segments文件中。每个索引只能含有一个这样的文件,名为"segments".这个文件依次列出每个段的名字和每个段的大小。
  
  Segments --> SegCount, SegCount
  
  SegCount, SegSize --> UInt32
  
  SegName --> String
  
  SegName表示该segment的名字,同时作为索引其他文件的前缀。
  
  SegSize是段索引中含有的文档数。
  
  Lock文件
  有一些文件用来表示另一个进程在使用索引。
  
  ?  假如存在"commit.lock"文件,表示有进程在写"segments"文件和删除无用的段索引文件,或者表示有进程在读"segments"文件和打开某些段的文件。在一个进程在读取"segments"文件段信息后,还没来得及打开所有该段的文件前,这个Lock文件可以防止另一个进程删除这些文件。
  
  ?  假如存在"index.lock"文件,表示有进程在向索引中加入文档,或者是从索引中删除文档。这个文件防止很多文件同时修改一个索引。
  
  Deleteable文件
  名为"deletetable"的文件包含了索引不再使用的文件的名字,这些文件可能并没有被实际的删除。这种情况只存在与Win32平台下,因为Win32下文件仍打开时并不能删除。
  
  Deleteable --> DelableCount, DelableCount
  
  DelableCount --> UInt32
  
  DelableName --> String
  
  段包含的文件(Per-Segment Files)
  剩下的文件是每段中包含的文件,因此由后缀来区分。
  
  域(Field)
  
  域集合信息(Field Info)
  所有域名都存储在这个文件的域集合信息中,这个文件以后缀.fnm结尾。
  
  FieldInfos (.fnm) --> FieldsCount, FieldsCount
  
  FieldsCount --> VInt
  
  FieldName --> String
  
  FieldBits --> Byte
  
  目前情况下,FieldBits只有使用低位,对于已索引的域值为1,对未索引的域值为0。
  
  文件中的域根据它们的次序编号。因此域0是文件中的第一个域,域1是接下来的,等等。这个和文档号的编号方式相同。
  
  域值存储表(Stored Fields)
  域值存储表使用两个文件表示:
  
  1.  域索引(.fdx文件)。
  
  如下,对于每个文档这个文件包含指向域值的指针:
  
  FieldIndex (.fdx) --> SegSize
  
  FieldvaluesPosition --> Uint64
  
  FieldvaluesPosition指示的是某一文档的某域的域值在域值文件中的位置。因为域值文件含有定
上一篇:如何在Java中如何定义一个常量 人气:1309
下一篇:想要开始为Java手机开发应用程序吗? 人气:1533
浏览全部Java的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-10-10 企业网站智能管理系统(TZIMS) v6
2008-10-10 拓文asp.net网站内容管理系统 v6
2008-10-10 动网论坛PHP版 v2.0++ Build 081
2008-10-10 免费时代CMS v5.0
2008-10-10 wodig第四季中文DIGG社区 v4.1 b
2008-10-10 老Y文章管理系统 v2.2 bulid 081
2008-10-10 魔法盒动感相册 ASP+SQL版 v2.0
2008-10-10 Asoft签到管理系统 v3.0 Pack1
2008-10-10 哥特人音乐网潮流留言本 v1.1
2008-10-11 联系人分组工具 v1.1 中文破解版
2008-10-11 FaceMelter变脸 v2.0 汉化破解版
2008-10-11 PathTracker道路跟踪仪 v1.2 破解
2008-10-11 Rooms手机聊天室 v0.6.7 破解版
2008-10-11 RemoteDesktop远程桌面 v1.0 破解
2008-10-11 ProRemote远程调音台 v1.0.1 破解
2008-10-11 PicShare照片共享 v1.0.0 破解版
2008-10-11 Photogene照片编辑器 v1.5 汉化破
2008-10-11 WriteRoom共享文档 v1.0 破解版
  发表评论
姓 名: 验证码:
内 容:
站长工具:网站收录查询 | Google PR查询 | ALEXA排名查询 | CSS在线编辑器 | 广告代码 | js/vbs加密 | md5加密 | 进制转换 | UTF-8 转换工具 | Html转换js | Html转换asp | Html转换php | Html转换perl
实用工具:汉字翻译拼音 | 拼音字典 | 符号对照表 | 个税计算 | 实时汇率查询换算 | 经典小工具 | 汉字简繁转换 | 普通单位换算 | 公制单位换算 | 生辰老黄历 | 国内电话区号 | 国家代码与域名缩写 | 文字加密解密 | 健康查询 | 万年历 | 汉字横竖排版 | 手机号码查询 | 计算器 | ip搜索
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵
SEO対策 中国語教室 ホームページ作成