JobPlus知识库 互联网 互联网+ 文章
给产品经理讲技术丨百度野史之白富美与矮矬穷

搜索引擎对大部分人来说,无论从产品角度还是商业角度,那都是让人感觉无比高大上的东西。百度作为体制内的搜索引擎霸主,无疑是各种和互联网搭上边的产品心目中的白富美。竞价排名,商业广告,渠道推广就像是一束束捧向百度的鲜花,百度在公主般的待遇中不可自(一)拔(世)。

最近此公司因为卖贴吧的事情被推上了风口浪尖,所谓墙倒也需众人推,娱乐圈有条定律,就是对出现丑闻的明星准时开八她的前世今生。今天我来八的是百度这个白富美背后的“矮矬穷”。

百度的立业之本是搜索引擎,而对于搜索引擎来说一个非常关键的构件就是网络爬虫,不错,爬虫,这个粗俗又鄙陋的东西。搜索引擎这么高大上的东西是怎么和爬虫这么个“矮矬穷”的东西扯上关系的呢?

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

这个虫子属于给跟杆子就往上爬的那种,它从几个初始的网页开始,为搜索引擎四处奔走,不断的从当前爬取的网页中抽取新的地址,然后爬向下一个网页,建立新的关系。而且建立关系的时候相当功利,只保留对自己有用的(根据一定的网页分析算法过滤与主题无关的链接)。这些被爬虫爬过的网页,会被系统存贮分析建档,以便日后可用。听起来有点边偷边抢的意思啊。

然而互联网上的信息量如此庞大,更新频率也快,为了更有效的爬取信息,爬虫需要选择一定的策略:

♦ 选择策略,决定所要下载的页面;

♦ 重新访问策略,决定什么时候检查页面的更新变化;

♦ 平衡礼貌策略,指出怎样避免站点超载;

♦ 并行策略,指出怎么协同达到分布式抓取的效果

简单点说就是要搞清楚哪些的关系是有用的,并且要时不时的去拜访一下,但是这个频率也要适度,不能让人家觉得你很烦。

有了这么个兢兢业业的虫子,为自己建立如此广的关系网,百度还愁没人给自己送钱求自己办事?从此眼里只有money,money,money!

百度仗着自己白富美的身份,有了为自己保家任劳任怨的“矮矬穷”,还有为自己吸金纳银的小白(贴)脸(吧),真是家里白旗不倒,外面彩旗飘飘,可谓人(无)生(耻)赢(之)家(徒)啊!

可是你的初心呢?“善良比聪明更重要”!

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

¥ 打赏支持
479人赞 举报
分享到
用户评价(0)

暂无评价,你也可以发布评价哦:)

扫码APP

扫描使用APP

扫码使用

扫描使用小程序