Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。这个网站地图是用xml写的,按照Google的标准来写,并且要将写出来的这个文件sitemap.xml上传到自己的服务器空间中去。在网站根目录,例如:http://newstock.cn/sitemap.xml 。目前Google, Yahoo, MSN都已经声明支持这种格式,这将是向众多搜索引擎提供你网站信息的一种很好的方法。
网站管理员提交sitemap一是有利于搜索抓取一些正常抓取过程中无法抓取的网址,比如动态网页。二是为搜索蜘蛛指明“工作方向”。Sitemap就是你网站上页面的列表,Googlebot就按照这个去一个个的抓取收录页面,显然比它自己去找会效率高,而且要全。
Google SiteMap文件生成后格式如下:
<?xml version="1.0" encoding="UTF-8" ?>
- <urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
- <url>
<loc>http://newstock.cn/</loc>
<lastmod>2008-09-06</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
- <url>
<loc>http://newstock.cn/article/</loc>
<lastmod>2008-09-06</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
- <url>
<loc>http://newstock.cn/article/list/list_1.html</loc>
<lastmod>2008-09-06</lastmod>
<changefreq>daily</changefreq>
<priority>0.7</priority>
</url>
- <url>
<loc>http://newstock.cn/article/html/finance_32.html</loc>
<lastmod>2008-09-05</lastmod>
<changefreq>yearly</changefreq>
<priority>0.6</priority>
</url>
- <url>
<loc>http://newstock.cn/article/html/finance_1.html</loc>
<lastmod>2008-08-30</lastmod>
<changefreq>yearly</changefreq>
<priority>0.6</priority>
</url>
- <url>
<loc>http://newstock.cn/article/list/list_2.html</loc>
<lastmod>2008-09-06</lastmod>
<changefreq>daily</changefreq>
<priority>0.7</priority>
</url>
- <url>
<loc>http://newstock.cn/article/html/stock_36.html</loc>
<lastmod>2008-09-06</lastmod>
<changefreq>yearly</changefreq>
<priority>0.6</priority>
</url>
... ...
- <url>
<loc>http://newstock.cn/picture/html/joke_2.html</loc>
<lastmod>2008-09-04</lastmod>
<changefreq>yearly</changefreq>
<priority>0.6</priority>
</url>
</urlset>
XML标签
changefreq:页面内容更新频率。
lastmod:页面最后修改时间
loc:页面永久链接地址
priority:相对于其他页面的优先权
url:相对于前4个标签的父标签
urlset:相对于前5个标签的父标签
下面分解讲解这个xml文件的每一个标签:
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
这一行定义了此xml文件的命名空间,相当于网页文件中的<html>标签一样的作用。
<url>
这是具体某一个链接的定义入口,你所希望展示在SiteMap文件中的每一个链接都要用<url>和</url>包含在里面,这是必须的。
<loc>http://newstock.cn/</loc>
用<loc>描述出具体的链接地址,这里需要注意的是链接地址中的一些特殊字符必须转换为XML(HTML)定义的转义字符,如下表: 字符转义后的字符
HTML字符 字符编码
and(和) & & &
单引号 ' ' '
双引号 " " "
大于号 > > >
小于号 < < <
<lastmod>2008-09-06</lastmod>
<lastmod>是用来指定该链接的最后更新时间,这个很重要。Google的机器人会在索引此链接前先和上次索引记录的最后更新时间进行比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时间格式进行描述,格式化的时间格式如下:
年:YYYY(2008)
年和月:YYYY-MM(2008-08)
年月日:YYYY-MM-DD(2008-09-06)
年月日小时分钟:YYYY-MM-DDThh:mmTZD(2008-08-08T11:58+08:00)
年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-08-08T11:58:58+08:00)
这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了
<changefreq>always</changefreq>
用这个标签告诉Google此链接可能会出现的更新频率,比如首页肯定就要用always(经常),而对于很久前的链接或者不再更新内容的链接就可以用yearly(每年)。这里可以用来描述的单词共这几个:"always", "hourly", "daily", "weekly", "monthly", "yearly"。
<priority>1.0</priority>
<priority>是用来指定此链接相对于其他链接的优先权比值,此值定于0.0 - 1.0之间
还有</url>和</urlset>,这两个就是来关闭xml标签的,这和HTML中的</body>和</html>是一个道理,另外需要注意的是,这个xml文件必须是utf-8的编码格式,不管你是手动生成还是通过代码生成,建议最好检查一下xml文件是否是utf-8编码,最简单的方法就是用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。
登陆Google提交你的SiteMap文件,让Google开始爬行吧打开http://www.google.com/webmasters/sitemaps/链接,如果还没有注册或者登陆Google,就先用自己的帐号登陆Google,登陆后转到Your Sitemaps状态页面,可以点击那个Add a Sitemap + 跳转到提交页面进行Sitemap文件的提交。建议文件放在你的站点根目录下。给Google提交你的Sitemap URL后可以看见在列表里已存在,不过这时候还没有生效,必须过几个小时后Status栏变成OK表示正式生效,如果不是OK,可以查看Google给出的状态标示解释看看是什么原因。
对PHPCMS网站管理系统,可以手动提交。在“系统设置=>系统工具=>Google地图”点击,弹出页面
生成 Google Sitemaps
您希望生成多少天以内的信息链接: 90 天以内
每个栏目生成前多少条信息的链接:500 条信息
点击提交就可,如我刚生成的新证券网站http://newstock.cn/sitemap.xml
Sitemap.xml的校验,至于你的网站地图是否符合标准,最方便的手段就是使用Google的管理员工具了。 在Google下载你的sitemap.xml后几天内,这个工具就会将详细的分析结果反馈回来,包括:sitemap.xml中包含了多少地址,Google已将多少地址加入索引,sitemap.xml中出现了哪些错误,甚至蜘蛛采集过程中遇到的各种问题,比如哪些网页有404,500错误都会详细的罗列出来,非常方便。如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤快,页面被收录当然也就更快。
0
顶一下0
踩一下