第284章谷歌一下 (3 / 6)_花开美利坚

第284章谷歌一下 (3 / 6)
        当然，中国除外――因为那里的人实在是太多了，乃至于都有了“it民工”的说法。

        凯瑟琳坐了下来，然后喝了一口红茶。

        她一边喝着茶，一边在思考着应该如何写一个网络蜘蛛的程序出来。

        评价一个网络蜘蛛的好坏，有三个方式，一个是覆盖率，网络蜘蛛的首要目标是抓取互联网上所需的信息。因此，有价值的信息是否都收录，收录的比例是网络蜘蛛的基本评价指标；第二个则是时效性，即事件发生并在互联网上传播后（以新闻、论坛、博客等各种形式），用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录，因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源；最后则是重复率，互联网上重复的内容很多，如何尽早的发现页面重复并消除之，是网络蜘蛛需要解决的问题。除转载导致的重复外，重复总能体现为各种不同的模式，站点级重复，目录级重复，cgi级重复，参数级重复等等，及早发现这些模式并进行处理，能节省系统的存储、抓取、建库和展现资源。

        第一个问题最好解决，因为美国电信的根服务器就在八零后少林方丈页的覆盖率永远都是100%。

        需要解决的是第二和第三个问题。

        事实上这也不是个大问题，原理很容易解决，最重要的一环在于需要一个高效率的程序。

        光凭自己一个人的话，可能需要不少的时间。凯瑟琳一直梦想的是当一个甩手掌柜，这事怎么能够发生呢？――于是，找人就是必须的。

        最后，凯瑟琳决定从微软的开发组抽调了三个人出来，帮助开发这个网络蜘蛛程序。

        反正星门系统的开发已经差不多了，这个时候自己抽调一些人出来开发网络蜘蛛完全不是问题。

        网络蜘蛛是搜索引擎的一个最核心的部分。有了这个程序之后，搜索引擎的建立就会非常简单了。

        那……自己的这个网站应该叫什么名字呢？

        百度？

        内容未完，下一页继续阅读

新笔趣阁阅读网址：wap.xinbiquge.org