动态网站制作指南 [  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
电脑书籍下载:程序设计书籍 | 数据库教程书籍 | 平面与多媒体书籍 | 网络通讯书籍 | 系统管理书籍 | 网络安全书籍 | 认证考试书籍
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 站长之家 > Google推广
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ Google推广 ]的信息



本月文章推荐
.搜索引擎发展史.
.被Google Adsense 除名后怎么办.
.网站提交Google注册应注意的问题.
.GoogleAdSense容易被K的可能性列.
.如何利用Google增加你的网站访问.
.并非无懈可击 破译Google五大弱点.
.如何提高网站的PR值1.
.如何使Google更快速收录你的新站.
.优化建议与技巧来自AdSense优化团.
.Google PageRank 技术解密 3.
.Google调整算法 最近更新网页排名.
.Google Rank.
.被K的网站如何改进重新申请通过.
.最快速登录到Google的10点主要经.
.Google AdSense 图片广告问题.
.google性格二:google资讯偏爱收.
.你用过吗—Google分析师.
.搜索引擎从入门到精通.
.公布如何判断Adsense无效点击的隐.
.Google员工揭密防止网站作弊技术.

Google如何收录及排序网页

发表日期:2008-5-3 |


  我们遇到的最常见的问题之一是“Google是如何判定哪个结果出现在搜索结果的前茅?”,Matt Cutts给我们简单地揭示了如何抓取、收录和给网页评级。

抓取和收录

当你看到出现在Google的搜索结果的那个网页之前,Google在后台已经做了许多步骤。Google的第一步是抓取和收录互联网上的数十亿的网页,这个工作时由Google的机器人Googlebot来完成的,它浏览网络服务器抓取文件。 抓取的程序并不是漫无目的地在互联网上瞎逛,它访问服务器的特定的网页,然后扫描网页上的超文本链接,如果有新的文件也是这样抓取得;蜘蛛程序给每个得到的网页一个号码,这个号码指向它抓取的网页。

蜘蛛程序抓取了很多的网页,但这些网页还不是便于搜索的。如果没有一个索引,你要查询一个词,比如“国内战争”,Google的服务器每次都要读取每一个文件的所有内容。

因此,第二步就是建立索引。我们不是去扫描每一个文件的所有内容,我们巧妙地进行数据的“转换”,列出每一个文件所包含的特定的词,例如,“国内”这个词可能出现在文件3,8,22,56,68和92当中,而“战争”这个词出现在文件2,8,15,22,68和77中。

建立好索引之后,我们就可以开始对网页进行评级,决定网页的相关程度。假设有人在Google的搜索栏输入“国内战争”进行查询,为了提交搜索结果和对结果进行评分,我们要做两件事:

1. 找到包含用户查询的词的网页

2. 给符合的网页按照相关程度进行评级

Google开发出一个有趣的技巧来加速第一步:Google不是把整个索引存储在一台功能强大的计算机上,而是用千百个计算机来存储这些信息。因为任务被分解到许多的计算机,可以更快地找到所需的答案。 详细解释一下,假设一本书的目录有30页,如果一个人要在目录中查寻资料,每次查询都要花几秒钟;如果用30个人每人查询一页目录,显然要比一个人查询的速度快很多。同样的,Google将数据分别存储在许多计算机上,这样搜索的速度会大大加快。

我们是如何找到那些包含用户搜索的词的网页呢?回到“国内战争”的例子,“国内”这个词出现在文件3,8, 22, 56, 68 和92; “战争”出现在文件2, 8, 15, 22, 68和77,记下同时出现这两个词的文件。

国内 3 8 22 56 68 92

战争 2 8 15 22 68 77

国内 战争 8 22 68

这样我们可以清楚地发现“国内”、“战争”这两个词同时出现的在三个文件里 (8, 22, 和68)。 含有这几个字的列表叫做“位置列表”,搜索文件包含这两个字,这叫做交叉搜索位置列表。(较快的交叉搜索的方法是同时进行搜索,如果一个搜索列表,22到68,那另一个就可以开始搜索其他的)

对结果进行评级

现在我们已经有了一些包含用户搜索的关键词的网页,我们要对它们的相关程度进行评级。Google用许多参数进行评级。这当中PR算法是众所周知的。PageRank评估两个因素:有多少个网页链接到这个网页,这些链接网页的网站的质量如何。通过PageRank,五六个高质量的站点的链接,比如www.300mh.comwww.wulin999.cn比其他较差的网站的链接要有价值的多。

但是除了PageRank,我们还用许多其它的参数来进行评级。例如,如果一个文件包含“国内”和“战争”这两个词排在一起,这个文件可能比一个讨论革命战争的文件(在文件的某个地方使用“国内”)的相关程度高。还比如假设一个网页的标题是“国内战争”,比另一个标题为“19世纪美国服装”的网页相关度高得多。同样的,如果“国内战争”在网页中出现多次的网页比只出现一个的网页相关的程度也要高。假设你是搜索引擎,选择一个词查询,比如:国内战争或回收,在Google上查询,从结果中挑选三到四页打印出来。从每一张打印的页面上找出你的搜索语句的每一个字然后用荧光笔标出来,然后把这几页贴在墙上,退后几步眯着眼看,当你不知道页面的内容,仅仅能看到那些有颜色的方块,你认为那一页是最相关的呢?是不是有着大的标题和多次重复出现的颜色代表了较高的相关程度?你喜欢这些字出现在顶端还是底部?这些字出现的频率如何?这也是搜索引擎如何判断网页的相关程度。

原则上,Google总是试图找出可靠的和相关的网页。如果两个网页按照查询的语句大致有相同的信息,Google通常选择比较信得过的网站的网页。当然,如果有一些因素表明这个网站的网页相关度更高,Google经常也选择PageRank较低的网站。

一旦Google完成了文件的列表和它们的评分,就给出得分最高的网页。Google同时从网页中摘录一小段包含查询的关键词的句子;给出网页的链接。

对于这样的搜索工作,需要极大的数据运算量,一般说来,对于某个搜索,要有超过500台的服务器协同工作以求得最佳匹配的结果,当然,结果会在半秒内返回用户。


上一篇:巧妙使用Google网站管理员工具和分析服务 人气:416
下一篇:Google开始清理显示网址和访问网址不符的广告 人气:1343
浏览全部Google的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-7-8 ECShop v2.6.0 Build 20080707(G
2008-7-8 动网论坛PHP版 v2.0++ Build 080
2008-7-8 中国IT总舵 v9.0 UTF版
2008-7-8 凹丫丫新闻发布系统 v4.6 Build
2008-7-8 topview数据查询 v3.0
2008-7-8 Z-Blog v1.8 Spirit Build 80708
2008-7-8 Z-Blog v1.8 Spirit Build 80708
2008-7-8 凹丫丫新闻发布系统 v4.6 Build
2008-7-8 新动软万能网站内容管理cms系统
2008-7-5 AgileMessenger即时通讯工具 v1.
2008-7-5 GoodCalculator2.0版固件计算器
2008-7-5 RepoName源地址搜索工具 v1.21b
2008-7-5 AgileMessenger即时通讯工具 v1.
2008-7-5 TouchCopy多媒体管理软件 v3.13完
2008-7-5 VideosTone视频铃声 v1.1汉化破解
2008-7-5 TouchPad触摸板 v4.44破解版
2008-7-5 VideosTone破解补丁 v1.0
2008-7-5 Feeds GoogleReader客户端 v0.4.3


  发表评论
姓 名: 验证码:
内 容:
[ 汉字翻译拼音 ] [ 广告代码 ] [ 符号对照表 ] [ 进制转换 ] [ 经典小工具 ] [ 个税计算 ] [ 汉字简繁转换 ] [ 普通单位换算 ] [ 公制单位换算 ]
[ 生辰老黄历 ] [ 国内电话区号 ] [ 国家代码与域名缩写 ] [ 文字加密解密 ] [ 健康查询 ] [ 万年历 ] [ 手机号码查询 ] [ ip搜索 ] [ Google PR查询 ]
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報