本人由itseo讲师夜息撰写,转载注明出处!

最近在某个SEO QQ群看到有位同行提出这样一个问题。

『请问收录了600万网页的网站SEO流量最少会有多少?』

群友们在下面各种说,有的说几千,有的说几万,也有说是0的。

对于具体流量数字,我相信是没有标准答案,我们更加关心的是,这600万的收录是怎么来的?

关于如何查收录,相信每个刚入门SEO的同学都会接触到这样一个命令,site:http://domain.com


从上图中看,http://itseo.net这个网站有57个网页被收录了。也许上面那个600万收录就是这么来的。

但是这57个网页真的就一定能在搜索引擎中被搜索出来?

如果大家不理解这个问题,我们再来看一个例子。

我们选取一个网页,地址为http://www.tuniu.com/tours/22543860,把这个URL放入搜索引擎中搜索一下。

看上去这个网页被搜索引擎收录了。相信很多人查询某个网页是否被收录也是通过这个办法。

于是我们使用这个网页的标题:

“[春节]<韩国首尔-济州四飞5日游>特色团餐,市区酒店,美景购物…”

放入搜索引擎中去搜索一下

不能找到http://www.tuniu.com/tours/22543860这个地址,(第二条结果并不是,而是http://yt.tuniu.com/tours/22430878

这是SEO中经常提到的,找URL能找到,但是搜索标题却无法找到。

从搜索引擎角度讲,这种情况称作“该网页未建库”,就是搜索引擎发现了你的URL,但是却没有将其放入索引中。在这种情况下,你搜索任何和该网页相关的Query,都无法使网页出现在搜索结果中,除了搜索其URL本身。

因此本文中第一个问题就很好回答了,一个网站收录了600万网页,能有多少SEO流量?

答案是:首先要看这600万网页被建库了。其次再考虑内容的受众群体。

市面上各种查询收录的工具。例如搜索引擎的site命令,站长平台的索引量工具,单独拿URL去查询,都无法检测网页是否建库。

因此我们ITSEO针对这种情况,开发了一款

百度收录/索引实时查询工具

网址:http://site.itseo.net/

本工具免费开放给大家使用。

下面简单说说操作要点

  • 抽取一批待查URL,这边建议使用同类网页进行查询,便于观察。例如所有的帖子,商品,文章,新闻,图片等。例如http://www.tuniu.com/guide/d-hanguo-3904/ 这个网页上搜索的线路页。我们采用shell来快速获取
curl "http://www.tuniu.com/guide/d-hanguo-3904/" | egrep -o "www.tuniu.com/tours[^(\"|#)]*" | sort -u

获取到所有线路页的URL list

  • 将所有URL丢到工具中,选择百度节点,输入验证码,进行查询。
  • 分析查询结果,并且在右下方可以选择导出数据

可以看到,被收录的网页,未必建库。这个工具速度非常快,几乎5秒内可以完成数百条URL的查询,实际本地版本,一天可以完成数百万条URL的收录建库查询。

我们再举一个例子http://www.itseo.net/direction这个网页上,所有SEO的文章列表。

同样我们使用shell提取。

curl "http://www.itseo.net/direction" | grep -o "/direction/show.*.html" | sed s#/direction#http://www.itseo.net/direction#g | sort -u

 

获取到结果为


将结果丢到工具中查询一下。

全被收录建库了!

其实上文中提到的查询网页标题的办法,是可以检测网页是否被建库,但是实际开发过程中,这样操作速度非常缓慢,完全达不到本工具快速准确效果。在同程旅游网SEO负责人道哥(不是搞安全的那个!)的提示下,我们采取了一些非常规的手段获取到了数据。这边对道哥表示万分感谢。