Google搜索

Google開發的網路搜索引擎

Google搜索是由Google公司推出的一个互联网搜索引擎,它是互联网上最大、影响最广泛的搜索引擎。Google每日通过不同的服务,处理来自世界各地超过30亿次的查询。

Google搜索
Google标志
网站类型
搜索引擎
语言多国语言(~100)
持有者Google公司
创始人拉里·佩奇谢尔盖·布尔
营业额Google Ads广告
网址google.com
商业性质
注册选择性
推出时间1997年9月15日,​27年前​(1997-09-15[1]
现状发展中
编程语言Python, C, C++[2]
本条目属于网络搜索引擎系列
网络搜索引擎
元搜索引擎
国际性搜索引擎(多语言)
Google
Yahoo! Search
Bing
仅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英语Qwant
其他链接
搜索引擎的全球市场份额
Google
92.25%
Bing
3.18%
雅虎
1.32%
Yandex
1.02%
百度
0.86%
其它
1.38%
根据StatCounter的2022年2月-2023年2月数据制作[4]

除了搜索网页外,Google亦提供搜索图像、新闻组、新闻网页、地图、影片的服务。2005年6月,Google已存储超过80亿个网页,1亿3千万张图片,以及超过1亿的新闻组消息 - 总计大概10亿4千万个项目。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声,“Google”一个事物做动词表示的是“在Google上搜索”。它还有引申义“在互联网上搜索”,甚至“(在实际环境中)搜索”的意思。Google官方通过律师信强烈反对这种滥用他们公司名字的习惯,因为它可能会导致Google变成一个通用商标名。[5]

搜索引擎

物理构造

Google于全球数个地方,雇用服务器中心来存放较低成本的普通电脑,运行Red Hat Linux操作系统来回应搜索要求和索引网页。这个于服务器中心建立的“服务器园地”以Shared nothing architecture(分布式数据库结构)建造。索引是由程序Googlebot执行,它会定期地请求访问已知的索引建立新页面。页面更新愈快,Googlebot访问亦会愈多。再通过在这些已索引网页上的链接来发现新页面,并加入到数据库。索引数据库和网页缓存大小是以兆字节(terabyte)来衡量的。Google发展了一套文件系统名为Google文件系统,存储这些资料。

Google使用的这些机器的精确大小和位于何处至今未知;Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机结构:走进大数》中,推测Google的服务器场聚类计算机群形成的“搜寻场”在2000年大约应该有6000个处理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在硅谷和二个在维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见带宽)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000路由器(Gateway),用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。

Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了2008年服务器场包含下列各项[1]

  • 720个服务器架
  • 63,272台机器
  • 126,544个处理器
  • 253,088 GHz的处理能力
  • 126,544 GB内存
  • 5,062 TB的硬盘空间

依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器

PageRank

Google使用一种名为PageRank的算法,配合搜索字符串来排名网页,PageRank是以公司创办人拉里·佩奇命名。PageRank算法根据加权系数,推断该其他链接到网页的价值来处理。PageRank如此获取由人所建立的链接,与及与人关系的重要性。先前的排名搜索方法,采用了许多搜索器,以搜索的关键词和何时搜索来排名页面,或有多相关地关系该搜索。另外,Google亦采用其他秘密准则,决定排名网页的结果。

Google不止索引和缓冲HTML文件,亦索引13种其他文件类型,例如PDFWord文件、Excel表格,以及纯文本文件。除了文本文件,其他文件的是先转换为HTML版本后缓存的。所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。

Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google并非只使用关键词代理搜索技术,它将自身建立在高级PageRank™(网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(SEO)和各种针对PageRank的交换链接的行为的流行,Google的PageRank及公正性也越来越受到人们的质疑。

用户能自定义搜寻引擎。他们能设定一个缺省语言或使用"SafeSearch"过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。

尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是借由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆目录,官方的法定(政府)公文,电话簿等。

(关于PageRank™的介绍,参见Google的Why Use Google页页面存档备份,存于互联网档案馆))

Google跳舞

Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的。在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器(举例来说:www.google.com, www2.google.com, www3.google.com, www.google.co.uk, www.google.com.hk 等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。

Google目前的主要挑战之一是,它的算法和结果越是得到网路用户的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。

由于Google实际上已经成为国际上最流行的搜索引擎,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化(Search Engine Optimization,SEO)服务,如在一些高流量的讨论区内加入商业网站的链接,从而使该网站在Google的排名提高。这种措施的确有一定成效,但这种收取客户金钱,在第三者的讨论区上展示广告,对讨论区的读者造成困扰,也侵害了讨论区的商业利益。

还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,PageRank™在整个Google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。

Google发布了一系列的文章((页面存档备份,存于互联网档案馆))以指导站长们提升他们网站的页面评级。

SearchWiki

SearchWiki是Google搜索引擎Web 2.0化的一个体现,让登录的用户得以参与搜索结果的评定。在每个搜索结果中新增了“调升”、“移除”与“评论”的按钮:“调升”允许用户将某搜索结果提升到前方;“移除”则可以删除某搜索结果;“评论”则可以针对某搜索结果留下意见。为防止恶作剧与破坏损害了搜索结果可信度,以上的变动都会记录下登录用户名,而且其他登录用户也能看到谁做了什么改变。

典型的Web 2.0概念网站维基百科创始人吉米·威尔士亦曾提出透过让用户参与评定以集用户群力加强搜索结果有效度的想法,其具体实现即为Wikia Search

隐私

2022年4月底,Google表示用户可以要求该公司将他们的地址和电话号码从搜索结果中删除。[6]

搜索产品

除了搜索网页工具,Google还提供搜索图像、网上论坛、新闻、影片、当地搜索、地图、桌面搜索等服务。2006年,Google已经索引了250亿个网页与及13亿张图像。

Google还有并非直接与搜索相关的产品。例如Gmail是一个电子邮件服务,但仍包括搜索功能;Google Browser Sync不提供任何搜索工具,旨在组织用户的浏览时间。

Google即搜即得

Google即搜即得(Instant Search)是Google于2010年9月8日发布的一个新的搜索技术[7],是一项搜索增强功能,能够使用户在输入内容的同时显示搜索结果,而不需要点击搜索按钮或者按下回车键。这样一来,用户在输入内容的同时就可浏览到相关的搜索结果页,大大节约了搜索消耗的时间[8]

Google即搜即得可以在用户即使不知道要寻找什么,其联想查询也对搜索操作有引导帮助,最热门的联想查询词语会以灰色的文字形式直接地显示在搜索框里,这样当用户一看到所需的搜索结果时,就可以停止输入了。[9]而用户也可以选择停用这一功能。[10]

对移动设备的支持

对于大多区域、语言,Google即搜即得可以在应用Android 2.2+或者iOS 4+系统的移动设备上作为测试版功能来使用。[11]

审查

色情或其他有冒犯性的搜索关键词不会被纳入即搜即得。出版物2600: The Hacker Quarterly英语2600: The Hacker Quarterly编译了Google Instant不会搜索的关键词列表[12],即Google Instant不会给出含有这些关键词的即搜即得搜索结果。[13][14]

搜索结果即时预览

Google在搜索结果中提供即时预览功能,可在点击搜索结果前预览对应的网页。用户在搜索结果右侧的灰色箭头鼠标悬停,右侧空白处便会以图片的形式给出相应的网页即时预览。在部分预览中,预览图片上的相关程度较高的部分文本会突显于显示网页上,从而帮助用户更好地了解查询字词在网页中将要出现的位置。[15]

预览中还包含两个链接,一个是缓存网页,另一个是类似结果。[15]

不过,有些搜索结果可能不会提供预览。[15]

移动服务

Google针对AndroidiOS系统的移动设备,提供下载包含移动搜索、Google助理等多样服务的Google app[注 1],在Android系统搭载Google Play服务下内置并可更新[17][注 2]

2015年4月,Google宣布实施移动搜索算法调整的工作,Google会优先显示对移动端进行优化的网页内容。这个调整全面影响所有网页的移动搜索排序。[18]截至2018年12月,在所有搜索结果中,超过一半的网页使用移动优先索引,这意味着谷歌搜索结果更偏重移动端网站,而不是PC端网站。[19]

使用技巧

google搜索方法 [20]
inurl: 搜索网页连接中包含的关键词
site: 搜索特定域名的网页
link: 搜索链接到指定网址的网页

事件

故障

2009年1月31日晚间10时46分(UTC+8)左右,Google搜索引擎的中英文等搜索的结果全部加上了“该网站可能含有恶意软件,有可能会危害您的电脑”。其间,Google的网站管理员中心无法访问,显示“Server Error(服务器故障)”。并且有短暂的修复,之后问题仍然存在。此现象约至11时18分(UTC+8)结束,前后至少30分钟。后Google在官方博客中证实,这是人为失误,由于恶意网址库中不慎包含了地址“/”,导致所有包含“/”的网址皆被认为包含可能伤害电脑的软件。[21]在这个故障后,Google News也出现了一些微小的问题。

黑客袭击

2013年8月26日,几名巴勒斯坦的黑客劫持了“Google巴勒斯坦”的域名然后使其重定向至他们的网站,并在其网页上写了抗议文字。[22][23]

与澳大利亚政府的法律纠纷

2021年1月22日,澳大利亚政府拟定一项法案,要求GoogleFacebook等公司向澳大利亚当地的新闻出版商付款后,才能展示新闻内容。澳洲议会在2月25日正式通过备受争议的《新闻媒体与数字平台强制议价法》(News Media and Digital Platforms Mandatory Bargaining Code)。美国网络巨头谷歌曾警告,一旦新法实施,该公司会将其搜索引擎服务撤出澳大利亚。[24]因此,在澳大利亚地区的Google搜索页面上出现黄标警告[25],目前该警告标识已移除。

拟停止在香港地区提供搜索服务

2021年7月6日,香港政府修订《个人资料(私隐)条例》从而打击人肉搜索行为。FacebookGoogleTwitter公司警告香港政府,若继续推动修订个人资料条例,将会停止在香港提供服务。[26]10月8日,隐私条例修订生效。[27]

Google搜索在中国大陆

Google.com曾经多次被中国官方以未公开理由屏蔽。2009年6月18日,中央电视台焦点访谈》节目批评谷歌的搜索词语联想的功能传播色情低俗信息。在输入普通的词语如“母亲”时联想到淫秽内容,一时间谷歌备受中国官媒指责。而据谷歌Trends功能显示,6月10日来自北京的IP恶意刷入近百次黄色词语,使黄色词汇搜索量猛增,17日后此关键词逐渐回落至0。2009年6月24日21时左右,北京的互联网用户无法访问Google.com和Gmail,但使用代理服务器等手段(俗称翻墙)可以正常访问,约两小时后,Google服务恢复访问[28]

2010年1月14日,Google旗下的Gmail遭到可能来自中国的黑客入侵,并企图下载中国人权活动人士的电邮。Google后来宣布,Google.cn的搜索服务将关闭,转由香港域名面向中国大陆用户提供简体中文服务。

此后,中国大陆用户访问Google时,常被防火长城干扰[29],并于2014年开始完全无法登录[30]

国际化

Google可以搜索很多的语言,并且提供了多种语言的界面[31]

为了达到幽默效果,Google还提供了以下几种语言的界面:

注释

  1. ^ 前称“Google搜索应用程序”(Google Search app)[16]
  2. ^ Google app与Google Workspace旧称“Google Apps”容易混淆,须注意两者区别。

参考文献

  1. ^ WHOIS - google.com. [2007-08-10]. (原始内容存档于2012-05-20). 
  2. ^ The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA. [January 27, 2009]. (原始内容存档于2012-03-30). 
  3. ^ Alexa Google traffic results. Alexa. [2009-11-15]. (原始内容存档于2007-11-11). 
  4. ^ Search Engine Market Share Worldwide. StatCounter Global Stats. [2023-03-18] (英语). 
  5. ^ 存档副本. [2013-01-07]. (原始内容存档于2012-05-30). 
  6. ^ 谷歌保障用戶私隱新政策 准刪搜索結果中個人信息. 星岛日报. 
  7. ^ Google Instant Launch Event. [2012-08-10]. (原始内容存档于2012-08-09). 
  8. ^ “Google即搜即得可为每次搜索节省2到5秒的时间”. [2012-08-10]. (原始内容存档于2012-08-12). 
  9. ^ 联想查询更智能. [2012-08-10]. (原始内容存档于2012-08-12). 
  10. ^ 可以停用Google即搜即得吗?. [2012-08-10]. (原始内容存档于2012-08-12). 
  11. ^ Google即搜即得能否在移动设备上使用?. [2012-08-10]. (原始内容存档于2012-08-12). 
  12. ^ 2600.com: Google Blacklist - Words That Google Instant Doesn't Like. [2016-11-28]. (原始内容存档于2017-01-10). 
  13. ^ CNN: Which words does Google Instant blacklist?. [2016-11-28]. (原始内容存档于2016-03-28). 
  14. ^ The Huffington Post: Google Instant Censorship: The Strangest Terms Blacklisted By Google. [2016-11-28]. (原始内容存档于2010-10-03). 
  15. ^ 15.0 15.1 15.2 即时预览 - Google网页搜索帮助. [2012-08-10]. (原始内容存档于2012-05-05). 
  16. ^ Google搜尋應用程式 Windows 8 專用版. [2021-06-09]. (原始内容存档于2021-06-08). 
  17. ^ Google搜尋說明. [2021-06-08]. (原始内容存档于2021-06-07). 
  18. ^ Google正式調整移動搜索算法:優先展示移動端優化的網頁 閱讀整篇文章. [2022-05-08]. (原始内容存档于2022-05-08). 
  19. ^ 谷歌:超过一半搜索结果已转向移动优先索引. 
  20. ^ 善用GOOGLE -- 從入門到精通. [2016-05-19]. (原始内容存档于2016-05-25). 
  21. ^ Google的官方博客声明. [2009-01-31]. (原始内容存档于2009-02-02). 
  22. ^ Google巴勒斯坦网站首页遭黑客篡改. 新华网. 2013-08-27 [2013-08-29]. (原始内容存档于2013-08-29). 
  23. ^ Google巴勒斯坦网站被黑. cnBeta. 2013-08-27 [2013-08-29]. (原始内容存档于2013-08-29). 
  24. ^ 谷歌威胁撤出澳大利亚,一场牵扯新闻业营收纠纷. BBC中文网. [2021-01-22]. (原始内容存档于2022-05-02). 
  25. ^ 最近用Google搜索时出现了不寻常!谷歌和澳媒扛上了吗?(组图). 大鱼新闻. [2021-08]. [失效链接]
  26. ^ 「起底」刑法化,Facebook、Twitter、Google 警告撤出香港,公署否認影響言論自由. engadget中文网. [2021-07-06]. (原始内容存档于2021-07-23). 
  27. ^ 政府正式刊憲生效 私隱公署及警方將加強執法. 2021-10-08 [2022-08-27]. (原始内容存档于2022-08-27). 
  28. ^ Kathrin Hille and Richard Waters. China blocks Google website. FT.com. June 24, 2009 [2009-06-25]. (原始内容存档于2019-10-17) (英语). 
  29. ^ Levin, Dan. 谷歌服务在中国遭遇大规模干扰. 纽约时报中文网. 2014-06-03 [2016-10-03]. (原始内容存档于2015-08-05) (中文). 自2010年以来,谷歌服务一直受到不同程度的干扰。 
  30. ^ 天安门事件前夕谷歌被封锁; 镜像网站提供不受审查的访问. GreatFire.org. 2014-06-02 [2016-10-03]. (原始内容存档于2016-03-31) (中文). 
  31. ^ 让Google说您的语言. Google. [2010-06-23]. (原始内容存档于2010-04-15). 

外部链接

参见