搜索引擎的大数据时代
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用提供商替保存着用户的私有数据,APP的数据因为没有 WEB化也是私有化的,当然还有一部分数据掌握在政府、 组织、普通企业手里。 数据一度主动流向 搜素引擎,而现
在结构化的数据,尤其是有价值的结构化数据正在慢慢 远离搜索引擎,流向一个私有的领地。这将产生数据的 滚雪球效应:有数据的地方,数据会越来越多;没有数 据的地方,必须为
商网站、BBS、知乎问答、互动百科、豆瓣电影等内容便 是属于此类。垂直网站在达到一定规模后,拥有与搜索 引擎博弈的能力时,便可屏蔽搜索引擎的爬虫,将自己 的数据“私有
化“。垂直网站提供的搜索功能,可以用个性化的搜索 功能和独有的挖掘能力,提供更好的搜索体验。甚至上 升为垂直搜索引擎,如知乎搜索。另外一种垂直搜索引 擎即是综合其他垂
没可能。这些数据,搜索引擎无能为力。 物联网产生的数据:车联网、监控录像、电子抄表、 水文监测等物联网应用每时每刻也在产生大量的数据。 这个行业还没爆发。爆发的
时候,应用也不会局限与此。互联网链接网页,移动互 联网链接天下芸芸众生,而物联网,链接天下万物。现 在中国的手机用户数突破11亿。芸芸众生基本已连起来。 不过相比11
的方向。云云搜索之所以在自己的社交搜索上没有起色, 归根结底就是从搜索切入社交是痴人说梦,因为没有用 户,就没有社交,也就没有社交搜素依赖的数据。云云 需要的社交数据
在微博。所以,云云投奔微博而去。 百度搜 索做了10多年,在如何吸引用户登录上做出很多努力, 但仍然没有形成自己的账号体系。Google煞费苦心的 GoogleP
然上线“发现喜欢的东西”,可以点评、分享和推荐任 何“东西”,任何“物”。现在属于低调的实验性产品, 但我认为这可能是豆瓣将来的爆发点,这个将来很远, 因为豆瓣很“慢
”。 总结一下:如果说大数据是金矿,拥有 大数据的垂直网站、社交网站、APP、云应用提供商、物 联网拥有者、政府组织和企业就是金矿矿山的老板。他 们可以自己从金矿
页中,搜索引擎能抓取的大概为1%500。 不能抓取的既有网站本身非主观的问题(不符合网 页规范,对搜素引擎不友好等),也有网站本身的主观 屏蔽的问题,如淘宝、优
酷等网站屏蔽百度的爬虫既是这类。搜索引擎在解决这 两类问题上已经做过很多努力。包括爬虫爬取技术的优 化、合法SEO的推动以及类似百度阿拉丁计划。 百度的阿拉丁计
来自百度文库
术。咱们会叫它挖掘引擎。而将挖掘和传统搜索结合起 来,通过挖掘响应用户主动的或者被动的搜索需求,或 许咱们可以叫其“推荐引擎”。 豆瓣和一些 电商网站早已进行这方
面的探索。豆瓣因为最初便将“推荐”作为其核心功能 之一,已有一些成型的成果。或许,我们撇开豆瓣的UGC 模式,其搜索+推荐的模式值得关注:豆瓣专注文化产品, 其早已悄
网络上的信息,一直是有抱负的搜索引擎的梦想,但这 是不可能完成的任务。 1994年Dr.Jill Ellsworth便提出”暗网“的概念。指存储在网络数据库里
、不能通过超链接访问,不属于那些可以被标准搜索引 擎索引的表面网络。暗网的规模也远超我们的想象,据 科学家研究,人类信息只有不到1%的实现了WEB化,而 WEB化的网
且他们具有的核心优势都是:个性化VS统一的优势。 如果说WEB数据私有化使前面提到的“WEB化 的信息,能抓取:不能抓取的约为1:500”这个比率发生变 化。下
面要谈的将影响“不到1%的信息WEB化”的1%。 2、巨量增长的没有WEB化的数据 随着10多年的发展,PC互联网已积累大量的数据; 而在移动互联网的浪潮
直的结构化数据,提供搜索服务,如去哪儿、一淘。 笔者相信随着WEB的发展,垂直搜索是未来搜 索引擎细分的一个方向,且将对传统搜索引擎构成威胁。 类似手机上浏览器
和原生APP之间的关系:浏览器和APP流量对半分。我们 把传统搜索引擎如百度看成这一个浏览器,那么垂直搜 索引擎便是APP。垂直搜索引擎也如APP一样正在滋长壮 大。
EO提升百度排名。而这个形势正在逆转。结构化数据不 再主动流到百度。垂直网站们趋于将这些数据私有化, 或者有限地开放给部分搜索引擎。 云云搜 索由雄心勃勃的Goo
gle工程师出来创立,最初立意于做社交搜索。此时 FACEBOOK的GraphSearch还不为大家所知。但是云云搜索 现在走向了为新浪、即刻等公司提供搜索技术服务
生局、教育局等民众关注的各个领域。经过十多年的信 息化建设,这些数据想必已经达到可观的量级。另外, “我查查”的条形码数据也可归为此类。我查查团队创 业初期,数百人团
队在全国商场收集商品条形码数据。我查查有一定规模 后,用户才主动为其添加条形码数据。 社交产生的数据:这里的社交网络不仅仅指微博或 人人网。QQ聊天也是一种社交
数据大爆炸,按照达尔文生物进化论,人类的信息吸收、 筛选和处理的能力应该也会进化。人们对信息的需求并 不会退化,反而会更加饥渴。而搜索引擎需要解决的问 题,不再是帮助
人们从海量信息里面找到结果。而是,在海量结果里面 找到唯一。快速找到准确的答案比找到更多的答案更重 要。 1、结构化数据对搜索的价值 结构化数据和网页数据相
lus也无法撼动Facebook在社交网络的地位。同类的例子 还有BING。2012年10月沈向阳接受采访时说BING战略是 社交搜索、实体搜索(移动搜索)和地图。
而现在,BING中国主要方向已变为英文搜索。 1、远离搜索引擎的数据 搜索需要的 大数据掌握在谁手里呢?垂直网站正将其数据私有化,社 交网站天生私有化,云应
获得数据付出比蜘蛛爬取更多的代价。 2、 搜索引擎将退化,或者改变位置? 传统综 合搜索引擎接下来要解决的不是“加速信息流动”,因 为很多信息都够不着。这也更
加突出Google+以及gmail等可以收集数据的应用对Google 未来的意义。或许未来的搜素引擎,百度这种传统的网 页搜索引擎将退化为“垂直网页搜索引擎”。因为
。邮件也是一种社交。虎嗅网也是一种社交。甚至短信 通信也是一种社交。我们不妨将这称为“暗社交”。这 些社交过程又产生了大量的信息,尤其是分享行为。一 定程度上部分社交
网站的数据是WEB化的,但是它们是封闭的。这部分数 据正在巨量增长,而搜索引擎对他们无能为力。 Facebook可以通过Graph Search搜索自己的数据,微博
不是谈大数据。 360与即刻此前已达成战略合 作,共同运营食品安全和曝光栏栏目外,且360将与即刻 共享药监局的数据。再前,360搜索引擎通过云云搜索接 入了微博
搜索结果,再之前,Google购买Twitter数据以提供Twitter 搜索结果。 谷歌干的事情是“整合全球 信息,使人人皆可访问并从中受益”和“加速信息流动
亿,物联网用户数则是一个惊人的量级。这些“用户” 也将产生大量的数据。这些数据将来是否要被人类搜索, 以什么形式搜索,搜索的结果是什么? 二、大数据如何流动
百度的阿拉丁计划曾经一度拥有吸收结构化数据的魔力, 众多结构化数据如天气预报、图书信息等都主动去接入 百度框计算。以便从百度获取流量和用户。垂直网站们 也一度通过S
划通过提供接口的方式,第三方网站主动接入自己的结 构化数据,用户在搜索时即可在结果前面看到这些信息。 百度期望阿拉丁灯神可以“照亮”暗网。与此类似的计 划还有Goog
le的OneBox,360的oneBox(360这名字取的)。但在暗 网的问题还未解决之际,一个更暗的网已经到来。 1、越来越多的私有化的WEB化数据 电
PP的数据? 个人云应用产生的数据:个人云应 用主要是解决多屏同步的问题。这让更多用户选择将数 据保存在云端。在不同设备上账号认证后下载并使用这 些数据。这类应用
除了同步通讯录、收藏夹这类私密性强的数据外,还有 印象笔记、网易云阅读等类型的大文本数据。个人云应 用将越来越多。若干年后,笔者认为OFFICE提供云同步 功能也不是
近日百度和药监局达成战略合作,百度将使用药监局的 的药品数据为人们提供用药相关的查询。百度为这批数 据付出的代价并未提及。天下没有免费的午餐,药
监局虽然是要造福于民,但是这批数据显然不会白给。 这意味着搜索引擎为数据买单的时代已经到来。笔者今 天想谈谈关于搜索和数据关系的一些看法。注意,大数 据离我们太远,这
有微博搜索,人人的,以及“暗社交”的数据,谁来搜 索? APP产生的数据:移动互联网已经不再是 由WEB通过超链接互相连接的网络。APP之间通过接口互 相链接,A
PP上的不同用户通过QQ好友关系、微信圈、微博关注关 系、手机号码等方式互相链接。而传统搜索引擎正是基 于超链接的。带来的问题实际问题就是,搜素引擎如何 搜索啪啪等A
里面掘金。也可以将金矿卖给搜索引擎或者大数据挖掘 公司来挖掘。搜索引擎为金矿买单的同时,必须将自己 从加速信息流动的管道,转变为会淘金的人。 ——文章转自:财经
网
xncdhwz 昆山网站建设www.seo886.com
下,APP、云应用、社交和物联网让数据爆炸式增长。对 搜索引擎来说,这些数据几乎都是不可见的。 人工整理的数据:药监局的数据就是例子。这类数 据集中存在于政府部
门、机构组织和一些企业手里。他们手里即掌握着民众 关心的权威民生数据,又暂时没有将这些数据通过网站 开放出来。与此类似的拥有数据的还有交通部门、环保 部门、旅游局、卫
”。百度简单可依赖,干的事情是“让人们最便捷地获 取信息,找到所求”。不同的表示,搜索引擎本质却是 一致的:帮助人们找到想要的信息。伴随着社会化和移 动互联网的浪潮,
网络上的数据爆炸式的增长。如何应对这些爆炸的数据, 既是搜索引擎面临的挑战,也是搜索引擎们的机遇。 具体分析如下: 一、比暗网更暗的 大数据 网聚合所有
比,更能满足第一点:找准唯一答案。网页分析是靠文 本匹配。结构化数据的分析即支持内容提供者的主动接 入,也支持搜索引擎的个性化精准分析。这两种方式都 会增加内容提供者
或者搜索引擎的成本,但是付出带来的回报是用户快速 得到准确的唯一的答案。 2、大数据挖掘是 搜索引擎的机会 不再仅仅是加速信息流动, 如果只做第一点提的结构化
数据接入和展示又太简单。搜素引擎要做什么呢?帮助 人类做人脑不能做的事情:数据挖掘。即从海量数据中 挖掘价值。人们都说大数据是一座金矿。但是如何从这 座金矿中淘金,人
们即没找到方法,也没找到工具。 搜索引 擎经过十多年的发展,在文本分析、关系发掘、图谱构 造、用户语义理解等方面已有丰富的积累。这些技术是 大数据挖掘依赖的基本技
网页数据只是网络数据的一部分,一小部分。这里再次 借用王小川的话“WEB已死”。 当然,还有 一种可能是搜索引擎仍然可以够着这些数据,有偿获取。 其在生态圈中的位
置的变化。搜索吃了免费数据10多年,接下来,搜索引 擎要更多地为数据买单。药监局只是一个开始。 三、大数据对搜索的价值 人类已经到 了离开信息不能活的地步。