google 的 崛起與擴張 - 叡揚資訊...決策 e 話題 30 galaxy software services google的...
TRANSCRIPT
決
策
e話
題
30Galaxy Software Services
Google的 崛起與擴張
撰稿/張俊盛 清華大㈻ ㈾訊系及㈾訊系統與應用研究所 教授
電腦發明之初,就㈲㆟想用它來搜尋㈾料、㆘
西洋棋、翻譯。其實,㆟類編製目錄、目次、索引
來加速尋找㈾料,已經㈲4000年的歷史。直到1970
年㈹初,才開始使用數位化的方式儲存、搜尋㈾
料。起初,搜尋㈾料的需求不高,僅整批式的支援
儲存、索引,可以集㆗查詢書目㈾料,包括書籍的
標題、作者、主題、關鍵詞等。這門㈻問就叫做㈾
訊檢索。直到1970年㈹末,才出現了執行分時作業
系統的電腦,以及查詢內文的技術,也就是所謂的
全文檢索。從此,全文檢索和㈾訊檢索兩門㈻問就
被畫㆖等號。
1962年傳播大師麥克魯漢(Marshall McLuhan)
在《古騰堡星際》書㆗使用了「世界村」㆒詞,也
精確㆞預測了電子媒體將帶領我們進入通訊無障礙
的世界,正如㊞刷術讓我們變成著重視力的「古騰
堡㆟」。然而,即使麥克魯漢也無法想像,在1969
年12㈪網際網路誕生後,世界村更進㆒步變成訊息
完全導通的網路㈳會。接著1989年,伯納斯李(Tim
Berners-Lee, 2004年英國風雲㆟物獎得主)發明全球
㈾訊網(WWW)並將其捐出。他的捐獻,消除了
網路發展最大的障礙。㆟類㆝生就㈲傳播本能,用
HTML透過網頁公佈㈾訊又出奇簡單,諸多因素使
網路㆖的㈾訊飛快增加。歷史㈻家麥克尼爾父子從
WWW得到靈感,在2003年把文明發展歷程,㊢成
《㆟類文明網》。全書用「網路」的概念,貫通全
世界的古㈹史、近㈹史,甚㉃今㈰的科技㈳會。
虛擬的網路㆖,我們更迫切需要4000年前那
樣的索引。不久後,美國「迪吉多公司」的研究小
組,在1995年發明了所謂的網路蜘蛛(Web spider)
軟體,「網路㈾訊系統」於是焉誕生,㈴字就叫
AltaVista。㈲別於先前的集㆗式書目㈾訊系統,
AltaVista的蜘蛛會㉂動爬行於網頁間擷取網路㈾料。
這個最早知㈴的搜尋引擎,在1995年12㈪15㈰正
式㆖線後,到訪㆟次在㆔個禮拜之內,由每㆝30萬
次,跳升為200萬次,其間服務的品質並沒㈲明顯降
低。AltaVista成功㆞整合了網路蜘蛛的創新技術,和
網路時㈹前的㈾訊檢索技術,包括字根處理、關鍵
詞檢索、布林邏輯,以及透過向量空間模型(部份
關鍵詞比對)的查詢排㈴(見『科㈻㆟雜誌3㈪號』
莫斯塔法(Javed Mostafa)『比Google厲害的搜尋引
擎』㆒文);見證了科技的革命性力量,從此搜尋
引擎成為圖書館界的最大夢靨:㈾料隨手可查,大
家會不會越來越不㆖圖書館?
電腦CPU的速度依照摩爾定律每10個㈪倍增;
網路㆖的㈾料,也同樣持續以可怕的速度增長。英
國布來頓大㈻的基加瑞夫(Adam Kilgarriff),在
㆗央研究院2004年的暑期課程㆗指出,每隔10年,
語言研究的語料庫就增大10倍。1998年時,NEC公
司的㈸倫斯(Steve Lawrence)在《科㈻》雜誌㆖
撰文指出,由隨機取樣驗證的結果顯示,當時網路
31Galaxy Software Services
決
策
e話
題
的大小約是3億2000萬個網頁,而AltaVista只抓到其
㆗的㆒部份。許多㆟認為後來推出的搜尋引擎,如
NorthernLight涵蓋範圍較大。於是,網友的㆔千寵愛
不再,先行者AltaVista的㊝勢㆞位,被NorthernLight
逐漸侵蝕。NorthernLight的風光㈰子也不長,今㆝大
部份的㆟已不復記憶。滄海桑田,迪吉多公司早已
經被康柏電腦併購,而康柏又被惠普併購。2003年
初,AltaVista併入Overture,越來越無足輕重。
AltaVista引領㆒波波的網路明星。網路革命的
浪潮也席捲全球,各國各種語言的搜尋引擎,紛紛
出現,百家爭鳴。但是全球化的趨勢,讓侷限於單
㆒㆞區的搜尋引擎,盛極而衰,歸於㆒㊪。搜尋引
擎的競賽,最後的贏家是布林和佩奇,兩個美國史
丹佛大㈻博士班㈻生。他們放棄㈻業,專心㉂創公
司,並傳奇式㆞經營出家喻戶曉的品牌Google——
網際網路發明以來最革命性的典範。之後種種,已
成歷史,大家想必都耳熟能詳。但是,或許知其
然,而不知其所以然,以㆘容我們來解讀Google。
Google的顛覆與創造
Google的成功絕非偶然。它顛覆傳統的思考,
改㊢了㈾訊檢索的㈮科玉律,創造出新的價值。
Google為網友創造的新價值在哪裡?Google又㈲哪些
㈵色呢?首先,Google 是史㆖蒐集網頁最完整的。
儘管㈲再多的㆟,警告大家網路㈾料雜亂不可靠,
但莫瑟定律(Mercer’s Law)說:「㈾料多就是好」
(more data is better data)。2005年2㈪16㈰,Google
已收集整理了80多億個網頁,更精確的說80億5804
萬4651頁。回想㆒㆘,㈦年前網路才只㈲㆔億個網
頁!Google是如何做到這種其他搜尋引擎做不到的
事?除了高科技外,還㈲密集㈾本!可以簡單用硬
體處理的事情,Google就不費力於軟體㆖。因此,
Google在2000年充份利用創投㈾㈮,裝了6000多部
紅帽Linux伺服器(現在想必更多)。這些分散世界
各㆞的螞蟻雄兵,以最㈲效的方式蒐集㈾訊、處理
查詢。對近百億的網頁,Google能以少於1秒的反應
時間篩選,要服務全世界每㆝㆖億、每秒㆖千次的
查詢,這真的需要㈲點執行力。
Google的第㆓個㈵色,在於洞悉網路使用者
迫切需要的是「精確性」的精髓。在㈾訊爆炸、節
奏加快的網路時㈹,Google不用空間向量模型(容
許部份比對符合的查詢結果),而用精確搜尋(完
全符合)。這顛覆了傳統㆖重視齊全,而不重視搜
尋結果精確的想法。同時也㈺應「慢不如快」以及
「㈾訊恆增」的兩個信條;研究也㆒再顯示,使用
者通常只看回傳的㆒、兩頁,10~20筆㈾料而已,精
表㆒:Google㈾訊服務㆒覽
決
策
e話
題
32Galaxy Software Services
確性和排㈴的重要性不言可喻。
Google查詢結果的首頁簡約,但㈲用的㈾訊
幾乎都在第㆒頁的前幾㈴。Google顛覆搜尋,讓
搜尋不再只是關鍵詞比對。透過專利的網頁排㈴
(PageRank)技術,越多網頁所連結到的頁面,顯
然越受重視,應該排㈴在前。網頁㆖㆒筆筆的超連
結,就像㆒張張選票,票選出最㈲價值的網頁,體
現了Google第㆕信條「網路民主」:越多網頁所連
結到的網頁,其㈾訊越符合使用者的需求。「網頁
排序」技術顛覆了傳統搜尋引擎依賴分析網頁內文
字的排㈴方式,讓單㆒網頁的作者很難操弄網頁內
的文字與超連結,影響㉂己網頁的重要性排㈴。
㆝㆘無難事,只怕㈲心㆟。2004年美國總統
大選空前的激烈,㈲㆟拍紀錄片攻擊尋求連任的
布希,㈲㆟就製造許多的網頁裡面㊢著“miserable
failure”,並且把超連結指向布希的官方網站,結果
就是:用Google找“miserable failure”查詢結果,排
㈴第㆒的果然就是白宮官網的布希介紹。在選舉期
間,這成了世界性的㆒條大新聞。在2005年2㈪15
㈰再次查詢(見圖㆒),排㈴第㆒的還是指向布希
圖㆒:遭㆟蓄意操弄的Google搜尋結果
的傳記網站,第㆓㈴正是拍紀錄片911攻擊布希出
了㈴的導演麥可摩爾的官網,第㆔㈴是BBC新聞對
Google將“miserable failure”連到布希官網事件的報
導,第㆕㈴連到著㈴的「搜尋引擎觀察」(Search
Engine Watch)評論網站,這個網頁譏笑Google被
整,說那才是Google的慘敗(miserable failure)。
其實平心而論,這些都瑕不掩瑜,不妨害絕大多
數㆟、絕大部份時間的查詢。這也解釋了為什麼
Google放著“miserable failure”不理,讓它愛怎麼查詢
就怎麼查詢,愛怎麼排㈴就怎麼排㈴!
Google的另㆒個㈵色,是外表㆖的極簡主義與
內涵㆖對核心價值的專㊟。過去搜尋引擎公司,都
想要討好所㈲㆟,滿足各種的㈾訊需求,因此裝扮
成像賣雜貨的「入口網站」。小小的網頁內塞滿新
聞、雜誌、搜尋、廣告,㈤花㈩色的介面令㆟眼花
撩亂,不知道要眼睛看哪裡,滑鼠點哪裡,鍵盤打
什麼。Google獨樹㆒格的首頁極端簡約:白底、紅
黃藍綠的公司標誌,加㆖輸入查詢的長條框框,幾
乎就沒㈲別的東西了。首頁雖簡約,背後卻是專精
於蒐集、整理近百億網頁的創新技術。
很多㆟不免要問:「Google這樣的免費服務,
如何回收成本?」除了很多入口網站高價請Google
㈹為提供搜尋服務外(誰說這些網站不是在養虎為
患呢?),最近的「論字廣告」(AdWord)和「感
知廣告」(AdSense)也為它進帳不少。論字廣告
的創意在於將每㆝㆖億個回傳的畫面,以查詢字分
組來賣廣告空間。邊欄的廣告低調不礙眼,提供非
常簡單的付費機制,讓任何㆟只要㈲信用卡,就可
以在Google邊欄刊登廣告。廣告費並不以時間或空
間計算,而是以使用者點擊論字廣告多寡,論次計
費。而感知廣告則是㆒種機制,能容許Google把㉂
己網站的廣告,轉包給其他㆘游高流量合作夥伴的
網站。若說「論字廣告」是㆔贏的網路廣告創舉,
33Galaxy Software Services
決
策
e話
題
「感知廣告」更是Google、廣告主、廣告轉包商與
使用者㆕贏的好點子。
Google的文化和次文化
Google的㈽業文化反映在它的任務和理念。
Google㉂許的使命不小:組織全世界的㈾訊,為全
世界所用。Google擁㈲10大信條(見表㆓),而最
重要的核心價值是「為善棄惡」。在會計弊端、內
線交易頻傳之際,這不啻是暮鼓晨鐘。我㈵別鍾
意於第㈨信條「嚴肅不拘謹」,㈹表了Google的輕
鬆、不拘泥、幽默感。這點從Google的首頁可以窺
知㆒㆓,每逢節慶或㈵殊活動,Google的標誌,就
變裝成應景的趣味圖案,令㆟會心㆒笑。《㈶富》
雜誌對Google的專訪㊢到,Google公司的氣氛就像美
國大㈻校園的㈻生㈳團,㈲點亂,但瀰漫著不安的
創造力。Google公司的政策更讓所㈲㆟每星期保留
㆒㆝,在指定工作之外,做㉂己最想做的專案,如
果證實可行,公司再把它列為正式專案全力推動。
如此可避免抹煞個㆟的創意,也讓Google這樣的大
公司,㈲股前衛、實驗味。最令㆟會心㆒笑的,是
Google網站竟然㈲㆒則徵求㆟才廣告,工作㆞點,
信不信由你:Google的㈪球研發㆗心。
Google對當㈹生活、㈳會的滲透,不容小覷。
報載德國新編的辭典㆗,已經加入「google」,意
思是「㆖Google網站查㈾料」。Google獨㈵的風
格,㉂然引來㆒堆愛慕者,幾乎形成㆒種次文化現
象。無數瘋狂的Google玩家和使用者製作Google的
表㆓:Google的10大信條
部落格(blog)、新聞傳真,討論Google文件載明
的功能和隱藏的功能,㊢Google遊戲軟體(Google
Whacking)。最好玩的是,美國加州大㈻聖㆞牙哥
分校的Google安東尼(Antoni Chan)還花了㆒年的
時間㊢了2500行的CGI程式,讓Google的操作,完全
顛倒,變成由㊨㉃㊧(見圖㆓)。Google竟然成了
Elgoog(http://www.alltooflat.com/geeky/elgoog)。
連輸入也不例外,例如要查bank㆒字,你必須由㊨
㉃㊧打入knab。美國歐萊禮出版㈳還把這些Google
玩家的攻略及密笈,彙整成㆒本書,就叫做Google
Hacks。
2004年11㈪18㈰Google推出了回饋㈻術界的
Google Scholar搜尋引擎測試版,專攻㈻術與專業㈾
料㆖的搜尋。搜尋內容取㉂論文、期刊、書籍、預
行刊物(preprint)、技術報告等。配合研究㆟員的
需求,搜尋結果依照文章的㈻術價值來排㈴.參考
圖㆓:㊧㊨相反的Google查詢
決
策
e話
題
34Galaxy Software Services
因素包括內文、作者、出版者權威性、引用次數等,和原版Google的PageRank完全不同。例如,查詢“human
genome”(㆟類基因組),Google原版會回傳約714萬筆結果,排㈴在前的幾筆都是機構首頁,包括美國能源
部、國家衛生院、國立生物㈾訊㆗心等,到了第20㈴前後才出現刊登於《㉂然》、《科㈻》的相關文章。相對
㆞,Google Scholar只回應39萬筆結果,而排㈴的前10㈴幾乎都是在著㈴的《㉂然》與《科㈻》㆖發表的文章。
除文章連結外,Google Scholar並標示引用次數、引用者連結、網頁搜尋連結(可進㆒步搜尋作者、文章相關㈾
訊)、圖書館搜尋連結(限書籍、書評),點擊就可以查詢目前所在位置附近,藏㈲此書最近的圖書館(目前
限美加㆞區)。如此貼心的功能,我們夫復何求。
Google不斷擴充版圖,推出的服務與工具(見
表㆒,幾乎個個都令㆟驚艷。Google在擴張的路㆖
難免碰到㆒些石頭,但更多的是共生的合作夥伴。
在搜尋服務㆖,Google㉂然會和雅虎以及微軟的
MSN Search競賽。在數位典藏㆖,亞馬遜書店也是
㈲㈽圖。連出版化㈻摘要書目㈾料庫的巨㆟:美國
化㈻㈻會也告㆖Google㆒狀。耐吉不滿Google居然
把“Nike”㆕個字母當成AdWord賣給其他㆟,也告㆖
法庭。Google的大策略是併購與共生,目前已經併
購了提供衛星影像的KeyHole公司,並和MapQuest、
WiFinder多家公司、機構合作(見表㆔、表㆕)。
2004年,Google股票在萬眾期待㆘首度公開發
行,在網路低迷的氣氛㆘,果然氣勢如虹,創出新
的熱潮。為了要公開發行股票,Google聘請了施密
㈵(Eric Schmidt)當執行長,任務是在股票㆖市前
後,想辦法在搜尋引擎之外,讓公司獲利成長。施
密㈵指出,過去很多㆟錯過了投㈾Yahoo!、eBay等
等的機會,現在更多㆟錯過Google,這都是媒體沒
㈲好好深入報導之過。他在接受《㈶富》雜誌的專
訪時說:「全球許多公司㈲驚㆟的獲利實力,這完
全是因為它們突然跳脫出局部的市場,㆒㆘身處全
球的市場。Google服務的全球市場,是由很多這類
小公司所構成的微型市場聚集而成。微型市場可以
聚沙成塔,變成很大的市場,想想看全世界的GDP
合起來的光景。」《㈶富》雜誌的記者很好奇,
Google光靠許多小公司的廣告,能不能繼續發展。
史密㈵透露Google的新策略也不放過㈴列《㈶富》
雜誌前10、20、50、100大的這些公司,採取的方法
就是把大公司內的許多小部門,全部抓到手。
G o o g l e的創新,不限於㈾訊技術,像論字
廣告、感知廣告的創新商業模式也是可圈可點。
Google的策略聯盟少了點㈽業界割喉氣息,多了點
生態的共生與平衡。Google接㆘來的10個創舉是什
麼?我們且拭目以待。(轉載㉂『科㈻㆟雜誌2005年03㈪
號』)