为什么阿里不去打造搜索引擎?

2018-10-0101:16:06 17 1,044
摘要

搜索领域的第一件事就是爬虫,而爬虫这个东西的核心难度之一就是将现阶段的动态网页静态化存储的过程,现阶段比较成熟的策略是做一个虚拟引擎进行实时编译,这就需要优秀的浏览器内核工程师去设计(不是脚本程序员),所以,一般上来说,搜索引擎做得好的公司,对浏览器产品有天然技术底蕴。当然这话反过来也成立,仅说明之间存在强联系。

搜索引擎不是不想做,有钱谁不赚?根本原因是阿里做不出来,或者做不好

搜索引擎分四块,爬虫,存储,检索与排名,前三种阿里没问题,关键是排名这个需要大量的用户搜索数据来增强用户体验,这是阿里根本没办法完成的,市场的先入为主导致第一第二占有行业流量市场的 90%,剩下的厂商没有办法收集到数据自然做不好,根本不是动力问题。

这也是 Bing 这类二级市商做到死也做不上去的原因,后来这一点供应商想了些歪路子,比如监控输入法或者浏览器来搜集搜索数据,质量马上上升一个台阶。

所以在搜索引擎二级市场上,只有能搜集到用户数据的公司能存活,也就是输入法厂家和浏览器厂家,比如 360,搜狗,必应。

不过百度再这么下去迟早自己搞死自己。占有互联网流量入口,具有天然的人工智能发展优势,结果就不说了,做的那叫个什么事儿,一手好牌打稀烂,也甭管怎么瞎搞,我只用谷歌,翻墙也要用。

PS:这里仅指大型综合类搜索引擎,我说过搜索引擎的门槛是数据,阿里正是因为搜集了大量电商数据才会有好质量的面向电商与购物的搜索平台,但是综合类不是电商,人上网也不是都去逛淘宝,学术,地理,人文,历史,经济,新闻,社交,当然还有番号,我这里说的是所有的领域的综合类大型搜索。

搜索引擎这块从历史演进分成了三代,第一代搜索基于规则式,这里不提了,第二代搜索引擎以谷歌的民主表决排名为代表,通过大规模矩阵计算判定其网页价值的“权威性”,所有目前除谷歌之外的搜索引擎均停留在这一代,而第三代则以联想查询,线索分析,人工智能知识图谱为代表,从原来的生硬的关键字搜索变成了可识别复杂语境的搜索。

用发展的眼光看问题的话,三个时代分别代表了计算力的飞跃与数据体量的质变。

就以谷歌为例,正是因为排名的检索需要动辄数十亿量级的矩阵计算,所以计算力成了谷歌的瓶颈,于是谷歌提出了分布式计算的论文 MapReduce,用分治的思维去解决计算力问题。

正是由于数据量的猛增,存储也成了瓶颈,于是谷歌相继发布了分布式存储的相关论文 BigTable 与 GFS,用分治的思维以解决存储瓶颈。

然后谷歌相继发布了与之相关的分布式调度论文,在产品线实现了闭环,于 2009 年,正式提出云计算的概念

然后在国内引发了第一波云计算传销展,各类骗子层出不穷。

也正是由于第三代搜索引擎的设计目的,谷歌开发出了谷歌大脑,作为第三代搜索引擎的底层基石,自此谷歌在搜索引擎,云计算,分布式计算,人工智能领域以及这些领域的相关细分领域吊打一切对手。

做到这些的最基本原因之一,就是谷歌占有比其他公司多出几个数量级的数据。

然后国内迎来了第二波人工智能传销展,还是原来的骗子,还是熟悉的味道。

我并没有否认阿里的技术,说了,不是技术问题,而是数据问题。

PS:正是由于谷歌三神器的发布,由 Lucene 创始人发起,在开源社区开始规划以三神器理论的蓝本,完成开源化的工作,这就是后来广大程序员屌丝面试简历占有率第一关键词的 Hadoop,后来由于多核处理器的衍生,原来的面向对象的编程模型无法很好的进行事务描述,于是,广大开源屌丝们开发出了面向函数式编程模型架构(原来早有了,只不过适合需求拿来回炉一次),JDK 也从 1.6 跨度到了 1.8,于是就出现了广大程序员屌丝面试第二关键词 Spark

真问到了这些玩意儿,十个里面九个水,还有一个也就都会配些 Hello World,就这也敢说精通哩.

再 PS:我这里说了浏览器与搜索引擎往往强相关,其本质也是由于搜索引擎技术的积累。

搜索领域的第一件事就是爬虫,而爬虫这个东西的核心难度之一就是将现阶段的动态网页静态化存储的过程,现阶段比较成熟的策略是做一个虚拟引擎进行实时编译,这就需要优秀的浏览器内核工程师去设计(不是脚本程序员),所以,一般上来说,搜索引擎做得好的公司,对浏览器产品有天然技术底蕴。当然这话反过来也成立,仅说明之间存在强联系。

至于输入法,我印象中 Bing 好像因为这个事情和谷歌法院见,具体的时间与内容记不清了。

作者:刘正

历史文章推荐:

  • 打赏明月一下下
  • 多谢您的赞赏!
  • weinxin
  • 本博客小程序
  • 微信内浏览本博客
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:17   其中:访客  9   博主  8

    • Shaka 2

      某度最忍受不了的就是竞价排名,虚假广告.

      • boke112导航 9

        能够做好自己的业务就很OK了,没必要什么业务都涉及

        • 优站盒子 2

          目前几块牛逼的业务阿里已经有了好几个,电商,金融(支付),云服务,哪一个拿出来不必搜索差,也不用像某度搞排名坑人

            • 明月登楼 Admin

              @优站盒子 正所谓“术有专攻”嘛!做适合自己的事儿!阿里一直都很明智!

            • 唯心寒辞 2

              还是要抢占先机。

              • 青山 5

                我觉得,一个企业也好,一个人也好,业务不能方方面面都做好,只要有专精的就好。

                • 米虫博客 3

                  市场占有率决定了阿里对搜索引擎入驻的成本,所以收购其他产品并扶持是一个很好的策略

                    • 明月登楼 Admin

                      @米虫博客 神马搜索,目前也就是个三流水准而已!综合搜索引擎来算,神马还有很长的路要走呢!

                    • 神奇钥匙 6

                      谁说阿里没有搜索引擎
                      神马搜索 的爷爷不就是阿里么

                      • 李学江博客 3

                        厉害了,说的很有道理