linux php python mysql jquery JavaScript 学习之窗

301重定向了的网站竟然被百度收录了。

我的www.seepop.cn这个站  没做301之前,百度一页也不收录。  下面先看看阿江统计的记录,
 

 

www.seepop.cn 这个域名 4月份建站的, 在9月29号之前百度从来没有收录过,6月15号左右我把它做了301到我的新域名去了,GG的反应很正常,本来PR到了3,很快就下降,收录量也猛降。

 

今天突然发现百度收录了seepop.cn这个已经被301定向了两个多月的域名,不知道是咋回事情。 看看截图吧。

这个是搜“游戏,手机电子书 主题”这个词,从百度里面搜到的。

 

 

site:命令也是收录了一个!

 

不明白百度是怎么个算法。   

www.mzxiu.com这个域名竟然被K了,不知道是不是好久没有更新的原因,暑假期间,两个月很少对这个站进行更新。一度出现site:www.mzxiu.com是1     没多久又是0,但是site:mzxiu.com 一直都是有数据的,my.mzxiu.com  bbs.mzxiu.com 这两个域名也遭遇不同的对待了,bbs.mzxiu.com这个还有点点流量,而my.mzxiu.com这个一点流量都没有,百度却一直收录着这个域名,bbs和www他根本不怎么收录了,bbs这个主机头的日志里面,百度的蜘蛛根本就不爬了,www的日志里面百度蜘蛛还每天来光临一次,但是爬了个首页就不继续了。为什么site:是0呢。而“手机游戏” …  等等关键词又能把它搜出来?  是权重太低了的原因吗?一直不明白。希望有高人指点一下。

 

下面来看看 mzxiu.com的情况

 

这个是检查301重定向的,seepop.cn的确已经定向到了mzxiu.com

搜索域名,还是搜出来了结果。搜关键词也能出来。

但是用SITE命令却是0!   权重太低了么?  唉。 真不明白!

 

 

stie:mzxiu.com 又能出my.mzxiu.com  不知道是什么原因!

 

 

 

不知道这个站该怎么坚持了。

说明一下上一篇文章的错误性,robots.txt的问题

今天看了一下IIS的日志,发现百度蜘蛛爬了我的templets目录,而我在robots.txt里面写了disallow: /templets/  。我以为是百度蜘蛛没有被这个规则限制,原来我一直没有理解真正的robots.txt的写法。 呵呵 。 实在是不好意思了。  刚刚还去点石论坛问了一下,才知道不是这样写的。

 

下面来看看正确的写法吧。 算是我自己的一个笔记了。

 

User-agent:
该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到 "robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在 "robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User- agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、 /help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能 访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要 有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页 同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用"*"和"$":
baiduspider支持使用通配符"*"和"$"来模糊匹配url。

"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

 

 举例说明 :


    • Allow或Disallow的值 URL 匹配结果
      /tmp /tmp yes
      /tmp /tmp.html yes
      /tmp /tmp/a.html yes
      /tmp/ /tmp no
      /tmp/ /tmphoho no
      /tmp/ /tmp/a.html yes
       
      /Hello* /Hello.html yes
      /He*lo /Hello,lolo yes
      /Heap*lo /Hello,lolo no
      html$ /tmpa.html yes
      /a.html$ /a.html yes
      htm$ /a.html no

 

28号百度更新了,查看IIS日志,发现robots.txt对百度蜘蛛没有作用

2008-09-28 16:46:49 W3SVC1525085449 58.49.59.140 GET /admin/skin/images/pos.gif – 80 – 121.62.132.125 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)+;+.NET+CLR+2.0.50727) 304 0 0

这个是IIS日志里面百度蜘蛛爬行记录,可以清楚的看到他爬到了ADMIN这个文件夹里面去了,按照ROBOTS.TXT的限制,我的admin这个文件夹禁止了所有的蜘蛛爬行。为什么百度还能进来爬图片呢?

 

 

2008-09-28 16:48:23 W3SVC1525085449 58.49.59.140 GET /templates/xhtml/skins/xhtml/images/down2.gif – 80 – 61.135.166.30 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+1.1.4322,+Baidu-Thumbnail) 200 0 0

templates目录也是被禁止了的, 不知道为什么百度还是爬进来了。 难道ROBOTS.TXT对他没有作用了吗?

 

Disallow: /templates/

Disallow: /admin/

正确的搜索引擎优化可以有效的帮助网站得到正确的排名

有效的页面优化因素

编号
要素 有效的优化因素 注释
1
关键词
网址中的关键词 第一个最好,第二个次之,以此类推,中文也有用
2
域名中的关键词  
3
Title标签中的关键词 不要太长,10-30个字以内为佳,不要用特殊字符,过度优化有惩罚
4
Description标签中的关键词 同样不要太长,100字以内,过度优化有惩罚
5
Keywords中的关键词 据称Google已经放弃这一项
6
Body中的所有关键词密度 5%-20%为宜
7
独立关键词密度 1%-6%
8
H1, H2, H3标签中的关键词 比较管用,过度优化有惩罚
9
关键词字体大小 字号,粗体,斜体
10
两个以上的关键词需要考虑他们的接近程度 越近越好
11
关键词词组顺序 页面中的顺序最好与查询的顺序一致
12
关键词是否突出 是否在文章开始,粗体,大号字体
13
图片alt标记中的关键词 用于描述图片,过度优化有惩罚
14
链接中的关键词  
15
导航
站内链接 链接到的页面要包含关键字,url里最好是以"-"连接的关键字
16
确保站内链接有效 没有死链接
17
树形结构 任何一个页面最好点击两次就可到达,不要超过四次点击
18
站内链接 在最终页增加互相引用
19
站外链接不要链接到LinkFarm 没有人这么傻吧
20
站外链接文字中包含关键词  
21
使用固定链接  
22
确保站外链接有效  
23
站外链接不要超过100个 虽然Google可以处理更多
24
其它页面内
优化要素
域名 .edu最好,.org其次,.com被搜索引擎注意的最多
25
文件大小 绝不要超过100K,最好在40K左右
26
在url中使用"-"连接关键词 用于在url中代替空格,关键词在1-2个为宜,4个以上就有spam的嫌疑了
27
不断更新页面 但不要改变链接,Google喜欢让我们不断更新页面。
28
更新比例 掌握在一定范围,不要太大
29
链接更新 有可能是好事,也有可能是坏事
30
更多更新=更多被爬  
gn="center">31
页面主题 不要太偏僻,围绕一个主题
32
使用同字根关键词 主要针对英文,例如teacher和teaching,在针对复杂的查询时Google会自动使用相关关键词进行查询。
33
使用语义相关关键词  
34
潜在语义相关索引 未证实
35
URl长度 不要太长,100以内,超短越好
36
网站因素
网站大小 越大越好
37
网站成立时间 越长越好
38
页面存在时间与网站成立时间比  

无效的页面优化因素

编号
无效的优化因素 注释
39
写在图片上的文字 搜索引擎看不见图片上的文字
40
网站联盟 不要加入类似Link Farm的网站联盟,或者链接大量链接的没有实际内容的网站,可能遭惩罚
41
OOP,过度优化惩罚 OOP已经得到证实。如果你确实到不了Google搜索结果的首页,那唯一的办法只能是买Google的AdWords广告了。
42
存在一个不良的友情网站链接 不要链接到Link Farm。
43
使用meta标记跳转 不要让用户什么都没到就跳转走了。
44
使用恶劣低级的语言  
45
毒药关键词  
46
过度交叉链接 不要在同一个C段里链来链去。
47
从其它网站偷东西过来 Google保护版权,一旦被发现,后果很严重。 File Google DMCA
48
用关键词把所有能塞的地方塞满

像title,keywords,description。前面已经提到过。

49
关键词分布散乱,没有明确主题 思维很发散,排名很靠后
50
页面修改 Google使用两个Cache(一个新,一个旧)来抓取页面,以防止SEO,如果你文章发表后,又大幅更改description标签,排后会受严重影响。
51
太快修改页面 太快=有问题
52
太快修改链接 太快=有问题
53
动态网页 容易进入陷阱,特别是带sessionid,
54
过多的javascript 不要用javascript实现跳转或者隐藏链接
55
使用Flash spider抓取不到Flash的内容
56
使用框架 spider对框架同样不适应
57
在robots.txt中把机器人关掉 自杀行为
58
一个像素的链接 红色警告,因为太鬼鬼祟祟
59
看不见的文字  
60
多重入口  
61
内容重复  
62
HTML代码不符合规范  

有效的页面外优化因素

编号
要素 有效的优化因素 注释
63
入链接
Page Rank 不需要多说,Page Rank越高排名越靠前,Page Rank的算法也有很多资料
64
入链接  
65
PR4以上的页面入链接  
66
入链接增加速度 最好保持平稳增长,太快会被惩罚
67
单独入链接
入链接的质量以及PageRank  
68
入链接的文字内包含关键词 我们的页面上甚至不用出现这些关键词
69
入链接时间 越久远越好
70
入链接文字经常改变 不太好,Google不知道为什么要变
71
入链接的流行程度  
72
入链接页面中链接数  
73
入链接页面中我们页面链接的排名  
74
入链接页面中关键词密度  
75
入链接页面标题  
76
从专家网站来的入链接 对Google排名有大幅提升(HillTop)
77
入链接页面与此页面有相关主题
78
入链接页面与此页面主题无关 不好
79
图片热点链接 可能会有问题
80
javascript链接 会有问题
81
目录
DMOZ收录  
82
主题是否与DMOZ分类相符 对排名有巨大提升
83
Yahoo收录  
84
LookSmart收录 对排名有提升
85
inktomi收录  
86
被其它目录网站收录  
87
被大网站引用 HillTop
88
网站成立时间长 大网站说明有实力,稳定
89
新网站 新网站会有短期内(1-3周)的爆发
90
网站目录  
91
网站地图  
92
网站大小  
93
网站主题  
94
用户行为
(页面)
页面流量  
95
页面点击比例  
96
页面停留时间  
97
用户有没有收藏  
98
书签添加/删除频率  
99
用户如何离开,去哪里  
100
用户行为
(网站)
网站流量  
101
权威引用  
102
用于搜索并链接到页面的关键词  
103
网站顶级域名内停留时间  
104
域名
域名注册时间  
105
合作网站是否正规  

无效的页面外优化因素

编号
无效的优化因素 注释
106
购买流量  
107
临时链接分析 为了防止临时性的网页链接堆积
108
意义改变  
109
没有入链接 至少要有一个入链接Google才会在索引内保存记录
110
购买链接

由于会破坏排名体系,如果被发现,Google对这个惩罚比较严重
1、页面上有无无贡献链接
2、是否在短时间内增加了大量入链接
3、是否在高PR无关网页上有入链接
如果不被发现或者认为是作弊,那这一招很有用
 

111
上级网页排名  
112
爬虫欺骗 给爬虫一个页面,浏览用户另外一个页面,Google承诺会封掉这类网页
113
从不良网站来的入链接  
114
域名劫持  
115
点击欺骗 不断搜索并点击同一个词
116
不要在Google爬虫来的时候关机或死机  
117
大网站的死角页面  
118
来自对手的排名竞争 内容抄袭

事物总是在变化,今天排名高不一定明天排名就高。保持平常心态,提供优秀内容,偶尔有些好的排名就足够了。

 

 

作者:于敦德 Blog: 一个藏袍 电子邮件:yudundeATgmail.com 写于:2006-3-13

版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明

新手怎么分析iis日志,工具如何使用

如何查看蜘蛛爬你的站没有呢? 来看IIS服务器日志吧。

查看服务器IIS服务器日志是在Windows文件夹.>>>>system32>>LogFiles>>W3SVC1下的.Log文件

比如说:
2007-12-03 07:33:25 61.135.145.208 – *.*.*.* 80 GET /index/119.htm – 304 Baiduspider+

(+http://www.baidu.com/search/spider.htm)
这就意味着百度蜘蛛在2007-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。

再比如说:2007-12-03 07:33:25 61.135.145.208 – *.*.*.* 80 GET /index/120.htm – Googlebot/2.1
(http://www.google.com/bot.html)
这就意味着Google蜘蛛在2007-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。

下面我们针对IIS服务器日志分析个例子:
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) cs(Referer)

sc-status sc-substatus sc-win32-status sc-bytes
2007-11-17 16:02:09 W3SVC999 211.155.23.176 GET /b2b_cplist.asp catid=300 80 – 61.135.162.212 Baiduspider+

(+http://www.baidu.com/search/spider.htm) http://www.domian.com 2000 0 47806
IIS Log
date(日期)    2007-11-17
time(时间)    16:02:09
cs-method(方法)   GET
cs-uri-stem(URI资源) /b2b_cplist.asp //代表访问的资源是当前这个文件
cs-uri-query(URI查询) catid=30 // 具体的访问参数
(cs-uri-stem+ cs-uri-query=实际访问的文件:/b2b_cplist.asp? catid=30)
s-port(服务器端口)  80
c-ip(客户端IP)   211.155.23.176(实际是网站所在服务器的IP)
cs(User-Agent)  Baiduspider+(+http://www.baidu.com/search/spider.htm) //百度在收录你呢J
cs(Referer) (引用站点)http://www.domian.com //搜索的站点
sc-status(协议状态)  200 //200表示OK
sc-substatus(协议子状态) 0
sc-win32-status(Win32状态) 0
sc-bytes(发送的字节数)  1329 //表示当前文件的大小

以上分析如有错误,请指正!

附录参数:
日期 date
时间 time
客户IP地址 c-ip
用户名 cs-username
方法 cs-method
URI资源 cs-uri-stem
协议状态 sc-status
发送字节数 sc-bytes
协议版本 cs-version
用户代理 cs(User-Agent)
参照 cs(Referer)
相比IIS缺省设置:
减少的有:

服务器IP地址
服务器端口
URI查询
增加的有:

发送字节数
协议版本
参照 

 

HTTP协议状态码的含义
协议状态sc-status,是服务器日记扩展属性的一项。
下面是各状态码含义列表:
"100" : Continue
"101" : witching Protocols
"200" : OK
"201" : Created
"202" : Accepted
"203" : Non-Authoritative Information
"204" : No Content
"205" : Reset Content
"206" : Partial Content
"300" : Multiple Choices
"301" : Moved Permanently
"302" : Found
"303" : See Other
"304" : Not Modified
"305" : Use Proxy
"307" : Temporary Redirect
"400" : Bad Request
"401" : Unauthorized
"402" : Payment Required
"403" : Forbidden
"404" : Not Found
"405" : Method Not Allowed
"406" : Not Acceptable
"407" : Proxy Authentication Required
"408" : Request Time-out
"409" : Conflict
"410" : Gone
"411" : Length Required
"412" : Precondition Failed
"413" : Request Entity Too Large
"414" : Request-URI Too Large
"415" : Unsupported Media Type
"416" : Requested range not satisfiable
"417" : Expectation Failed
"500" : Internal Server Error
"501" : Not Implemented
"502" : Bad Gateway
"503" : Service Unavailable
"504" : Gateway Time-out
HTTP协议状态码的含义。
"505" : HTTP Version not supported

外部链接的相关度的高低是如何影响网站SEO的

如果说一个外链相当于一票, 如果是一个相关的网站的外链,那这个外链的这一票可以理解为10分,可是是一个无关的外链呢, 一样可以理解为人家对你投了一票,只是分数低了一点,可能是一个一分,所谓积少成多,集腋成裘是这个道理,  不过大量与网站内容无关的外部链接,多数情况下最后会作为搜索引擎判定你作弊的其中一个依据。这样证据搜集确凿了, 基本上你的网站就会被k!所以外部链接贵在精,不贵多,还是专注做好内容, 外链只是辅助作用,大量的无关外链只是在短期内是有点效果, 
 

如何用博客资源养外链

外链在网站的排名中的作用越来越重要了,至少我个人觉得是这样的。我们如何获取外链呢?高质量的友情链接当然是很好的,但是对于新站来说,高质量的友情链接可谓是可遇不可求,这个时候也许有人会说还有导航站,一般的好导航站对于新站也是不予收录的,就好象你今天做个女性健康站,hao123能收录你吗?当然还有其他的导航站,但是多数都是要求你首页要给上的链接。我不知道这样做到底对我们自己的站有没有帮助,(希望有高手能指点一下,这里我个人还是认为养博客比较好

然后我们来谈谈养博客资源了:

 首先先去这个地方下载一个博客精灵这里是下载地址http://www.imfantasy.com.cn/upload/blog.rar
手动注册12个国内知名的博客百度, 搜狐, 博客网, blogcn,  blogbus, 猫扑, tom, 天涯, 网易, 新浪, myspace, 和讯 权重比较高~特别是和讯的.注册好之后,马上去网站发布一篇原创性的文章,然后加上关键词内链~然后群发到这些博客。 有个小地方要注意的是在软件发布文章里有个要你写关键词的地方,那里你随便打个随机数字进去(如下图),不然无论你加什么内链返回,那都会自动转化成软件自身的
网站地址, 失去了你建立博客资源的目标了。不出一个月 你就拥有了强大的博客站点资源以及稳定的网站排名!
 

怎样写meta keywords?撰写meta keywords要把握以下原则

怎样写meta keywords?撰写meta keywords要把握以下原则:

  • Meta keywords要围绕页面核心关键词撰写。
  • Meta keywords在单个网页中的数量不能太多,一般保持在1—4个之间,尽量避免超过5个。
  • 最终页Meta keywords的撰写应该尽量避开热门关键词,而是关键词的组合构成长尾关键词。例如“手机游戏”,其Meta keywords可以写为“诺基亚 手机游戏,索尼爱立信 手机游戏”,而不是写为“手机游戏
  • 不同的页面Meta keywords也要尽量保持不同。
  • 避免堆积关键词,例如“液晶显示器的维护及清洗”,其Meta keywords堆积为“液晶显示器,液晶,显示器,维护,清洗,笔记本显示器,17寸液晶显示器,19寸液晶显示器”。这种做法是错误的。

原载: 星箭SEO博客

imfantasy’s first blog

      接触互联网很晚,去年暑假的时候认识了小夏,小杨,他们让我知道了很多东西,我一直很感谢他们,没有他们,我现在可能连cms是什么都不知道,希望他们的事业越做越好,后来了解更多。 ASP,PHP,JAVASCRIPT…..  一直做着很多站,似乎碌碌无为。今年8月份应该说是一个成长的转折点了,知道该怎么去学习了。写一遍博客,做个个人站,记录一下我自己的生活。(不喜欢用新浪博客,也不喜欢百度空间,我只爱自己的东西,拥有的感觉多好呀,干嘛每天去帮那些大站更新内容呢!如果你不同意这个看法,就当我放了个臭屁。)

   找个方向,开始努力! 今天是2008-09-24号,提前预祝神七发射成功! 我的第一篇个人博客

 

                         i’m fantasy ’s blog!  2008-09-24 上午10点!

 

返回顶部