动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 站长之家 > 站长心得
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ 站长心得 ]的信息

本月文章推荐
.防止创业失败的10条经验.
.从庞升东和51.com你能学到什么.
.曹增辉:内容贬值和blog那点清高.
.女性论坛的发展之路.
.周逵:社区网站的价值在于把供需.
.网页浏览速度提高切实可行的七个.
.门户通:站长要少空谈,多做事,.
.门户网站迎来新的战国时代.
.做一个打不死的个人站长.
.论坛有感:一个人做,真的很难.
.网站的首页最应该放什么?.
.国外站长学习参考网站 站长论坛大.
.经验之谈:WEB建站之网站宣传.
.初学网站制作须知道什么是静态网.
.个人站长卖站的几个注意事项.
.怎样的网站才能成功.
.网站设计的思考网页版面布局的原.
.给刚做网站不久的草根站长们.
.我们做网站的一些定律分享.
.网站就象自己的孩子一样培养.

网页切片算法的若干问题

发表日期:2007-7-21 |


这是我研究网页切片算法的一个汇总想法。

之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题:

网页切片的粒度问题:

网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

网页切片的网页对象:

互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。

网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

网页内容区最大范围识别:

从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

如果处理分页的内容型网页:

现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:

我那天用浮动的 用绝对位置定位代替 定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

弄死他。看他怎么分析。

这样的算法太依赖于具体实现了,很难有好的解决办法。

况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

我怎么想都觉得我的简单算法都要比文中的算法强多了。

视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

干吗要分析HTML呢?情况多得很,根本分析不过来。

我目前的进展是:可以识别 导航区、链接区、页脚区。

对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。

套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

上一篇:高分辨率下界面布局的解决方案4 人气:1418
下一篇:网页浏览速度提高切实可行的七个方法 人气:1605
浏览全部网页切片的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-8-29 oblog v4.6 build 20080827
2008-8-29 ASBLOG v2.5 bulid 080828
2008-8-29 时尚DJ舞曲小偷 v3.1
2008-8-29 仿代码信息分类系统 v1.0 Beta3
2008-8-29 浮梦呓语-个人网站 完整版
2008-8-29 多用户QQ空间Flash播放器
2008-8-29 美思卡企业网站管理系统高级版
2008-8-28 LDV个人相册系统 v1.6.1
2008-8-28 讯时网站管理系统CMS v3.5
2008-8-23 Mini WinMount V0.4
2008-8-23 Vista优化大师3.11正式版
2008-8-23 Wine 1.13
2008-8-23 KlipFolio 5.0 Build 5899-80
2008-8-23 Windows Sysinternals Desktops
2008-8-23 OneTap Movies1.2破解版
2008-8-23 AnnotaterPDF阅读1.1.503 破解版
2008-8-23 SoundMeter分贝测量仪 v1.0汉化破
2008-8-23 iDrum音乐节拍1.0破解版
  发表评论
姓 名: 验证码:
内 容:
站长工具:网站收录查询 | Google PR查询 | ALEXA排名查询 | CSS在线编辑器 | 广告代码 | Html转换js | js/vbs加密 | md5加密 | 进制转换
实用工具:汉字翻译拼音 | 符号对照表 | 个税计算 | 经典小工具 | 汉字简繁转换 | 普通单位换算 | 公制单位换算 | 生辰老黄历 | 国内电话区号 国家代码与域名缩写 | 文字加密解密 | 健康查询 | 万年历 | 汉字横竖排版 | 手机号码查询 | 计算器 | ip搜索
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報
防水工事·改修工事 フットサル大会 探偵