2008年9月25日星期四

王路文档的优化

文档搜索,可以很方便的在互联网上找到自己想要,而进行网页搜索不到的文章、资料、数据等。最常用到的文档就是百度文档 http://file.baidu.com/,google的高级搜索,也就是文件格式命令filetype,例如搜索破碎机的doc的话,就在搜索框中输入“破碎机 filetype:doc”。很长一段时间除了其他提供文档下载的网站以外,像样的文档搜索的网站就没有了。前不久出来了一个牛档,www.niudown.com 使人眼前一亮,这是一个不错的文档搜索,很方便大家使用。但是在使用过程中发现了也多不方便的地方,这样的网站还可以在做的更好些,这便有了王路文档搜索。下面对王路文档搜索进行一个简单的介绍:1.王路文档搜索也是一个专门用于搜索Word文档、幻灯片 、电子表格 、PDF文档 、RTF等文档的搜索引擎,还增加了LRC歌词搜索,使用相当的方便。提供文档的预览,下载功能。2.王路文档搜索对搜索结果进行了加工,提取出了文档中的内容,生成静态的html文档,一则方便不愿意下载的人进行访问,二则作为源文件的一个映像进行保存,三是方便复制粘贴型的人来访问。3.提供相关搜索和最近搜索功能。4.提供了标签项。还有其他的,都是技术方面的东西,比如更新了引擎,修改站内连接修改。这些都不说了,说说这个网站简单的seo操作吧。文档搜索,可以从搜索引擎上抓取海量的文档信息,这些信息是独立为网页格式之外的文字内容,与网页内容的重复性较低,是较新的内容。王路文档搜索就是考虑到这个方面,大胆地将文档全部提取出来,全部生成html静态网页,前几日我进行的一个长文件名收录试验便是为了这个网站的优化工作做的一个小测试,实验结果和实践情况并不相符。当时做的试验的长文件名网页并没有收录,但是google已经开始收录www.wanglu.net 的长文件名网页了。由于是搜素的特性,如果不给搜索引擎一个关键词的话,搜索引擎是不会根据这些关键词爬到具体的页面的, 这就要提供一个关键词目录进行引导。当然,要控制搜索引擎抓取速度的,就要采用逐渐增加目录的方式。结果还是很理想的,现在给他google可以爬5000多个网页。网页采用的类似于扁平的结构,爬虫的路径是首页->关键词目录页->搜素结果列表页->静态网页,这是一个单方向的,这些静态网页将会处在统一个级别的权重上,就要考虑站内的连接,关键词的传递。这就想到的标签的功能,把文档的标题根据分词的原则制作成一个一个的标签,同样的标签将指定同一个静态网页,比如“破碎机”这个词,搜索结果中标题出现“破碎机”的文档内都含有“破碎机”这个标签,这些标签都将指向搜索结果排名第一的这个静态网页,从而增加这个网页在这个词上的权重。从实际结果中看到,采用的分词的词库中缺少行业词,标签准确性不高。再说域名,域名是05年注册的,一直没有放过什么东西,域名较早的被百度google、yahoo进行了收录。一直没有放过什么实质性的内容,百度直到前天才更新了首页内容,google收录比较理想。王路文档搜索现在还处在收录的观察期,还没有进行外部连接的操作。

没有评论: