The Incredibles
(2006—2009)
“網(wǎng)飛獎(jiǎng)”
網(wǎng)飛的最高原則一直是讓每部電影看起來(lái)都足夠誘人。這種智慧承襲自倫道夫的“直郵圣經(jīng)”,在DVD業(yè)務(wù)剛剛興起、影片選項(xiàng)不足并且趨于陳年舊片和不知名電影的情形下,這一原則對(duì)網(wǎng)飛的生存來(lái)說(shuō)至關(guān)重要。
幫助訂閱用戶發(fā)現(xiàn)他們喜愛(ài)而不只是喜歡的電影,可以確保他們不斷返回目錄尋寶,支付月租,并宣傳此項(xiàng)服務(wù)。其中最吸引人的是,Cinematch算法會(huì)充當(dāng)向?qū)В韵渤鐾獾姆绞揭I(lǐng)訂閱用戶檢索浩瀚的隊(duì)列。
在最終列入訂閱用戶隊(duì)列的影片中,差不多有70%來(lái)自Cinematch推薦。這個(gè)推薦引擎非常強(qiáng)大,網(wǎng)飛甚至用它來(lái)預(yù)測(cè)和控制其庫(kù)存需求,從而幫助理順針對(duì)新發(fā)行影片的高度需求,引導(dǎo)訂閱用戶選擇更具租賃效益的老電影。搜索影片的經(jīng)歷對(duì)用戶而言頗具吸引力,這在開(kāi)始的幾年里可以說(shuō)是意外收獲,它有可能在網(wǎng)飛與百視達(dá)的慘烈戰(zhàn)爭(zhēng)中改變游戲規(guī)則。
最初,Cinematch會(huì)根據(jù)用戶此前對(duì)其他電影的評(píng)分,分類提供用戶可能給予較高評(píng)分的電影名稱列表,以及由網(wǎng)飛內(nèi)容編輯創(chuàng)建的主題列表。用戶評(píng)分的電影越多,系統(tǒng)就會(huì)變得越準(zhǔn)確。隨著網(wǎng)站功能日益精確,Cinematch將僅提供某個(gè)訂閱用戶可能喜歡的片名,這意味著每一位訂閱用戶每次登錄時(shí)都會(huì)看到一個(gè)不同的網(wǎng)站。Cinematch和亞馬遜設(shè)計(jì)的軟件搭配,代表了世界上最好的協(xié)同過(guò)濾系統(tǒng)。
多年來(lái),哈斯廷斯要求他的軟件工程師配合數(shù)學(xué)家改進(jìn)算法,并親自予以調(diào)整。將人類行為和喜好歸結(jié)為一組方程式的想法吸引了他:是否真的有可能在數(shù)字范圍內(nèi)捕獲如此多的無(wú)序因素?
他后來(lái)指出,他對(duì)匹配算法的癡迷占據(jù)了他的空閑時(shí)間:有次圣誕節(jié),他把自己關(guān)在位于帕克市的滑雪屋內(nèi),在筆記本電腦上設(shè)計(jì)Cinematch,妻子帕蒂抱怨他忽略了孩子們,毀了他們的假期。
到2006年,哈斯廷斯和他的團(tuán)隊(duì)已經(jīng)竭盡所能進(jìn)行了所有改進(jìn)。爭(zhēng)取局外人的幫助看來(lái)毫無(wú)意義,他聘用的是找得到的最優(yōu)秀人才。和他的曾外祖父通過(guò)建立塔克西多公園實(shí)驗(yàn)室,以吸引世界頂尖科學(xué)家探索那個(gè)時(shí)代最大的物理學(xué)奧秘一樣,哈斯廷斯決定舉辦百萬(wàn)獎(jiǎng)金的科學(xué)競(jìng)賽,以促成為Cinematch提供支持的算法突破。曾外祖父阿爾弗雷德·李盧米斯曾以前沿設(shè)備、奢華食宿和豐厚津貼吸引了世界知名科學(xué)家到他的物理實(shí)驗(yàn)室搞研究。哈斯廷斯將通過(guò)提供一個(gè)科學(xué)界聞所未聞的真實(shí)世界數(shù)據(jù)集,來(lái)吸引擅長(zhǎng)使用機(jī)器語(yǔ)言的科學(xué)家們參加他的競(jìng)賽。
盧米斯實(shí)驗(yàn)室的科學(xué)家在行將改變“二戰(zhàn)”進(jìn)程的雷達(dá)和核裂變方面競(jìng)相取得了突破;哈斯廷斯則希望“網(wǎng)飛獎(jiǎng)”能迅速取得成果,以終止和百視達(dá)的戰(zhàn)爭(zhēng)。他欣賞的是英國(guó)政府1714年為海上經(jīng)度測(cè)量法發(fā)明人頒發(fā)的價(jià)值2萬(wàn)英鎊的“經(jīng)度獎(jiǎng)”,或者2004年為第一個(gè)可重復(fù)使用民用飛船發(fā)明人頒發(fā)的價(jià)值1000萬(wàn)美元的“安薩里X獎(jiǎng)”。
100萬(wàn)美元現(xiàn)金獎(jiǎng)將頒給一線團(tuán)隊(duì),旨在將Cinematch的預(yù)測(cè)能力提高10%。此外,還有5萬(wàn)美元“進(jìn)步獎(jiǎng)”用于在每個(gè)競(jìng)賽發(fā)起紀(jì)念日頒給領(lǐng)導(dǎo)者。競(jìng)賽將向任何教育程度和任何背景的人開(kāi)放,只要其原籍國(guó)獲準(zhǔn)與美國(guó)打交道。網(wǎng)飛將提供一個(gè)包括1億訂閱用戶電影評(píng)分結(jié)果的數(shù)據(jù)庫(kù)(剝離了個(gè)人識(shí)別信息),供參賽者以真實(shí)數(shù)據(jù)測(cè)試他們的方程式。網(wǎng)飛將在一個(gè)公開(kāi)排行榜上持續(xù)統(tǒng)計(jì)各團(tuán)隊(duì)的進(jìn)展情況,獲勝者將持有算法,但必須授予網(wǎng)飛使用權(quán)。
就網(wǎng)飛五星級(jí)系統(tǒng)而言,10%的提高相當(dāng)于將預(yù)測(cè)訂閱用戶電影評(píng)分結(jié)果的誤差持續(xù)控制在1/2~3/4個(gè)星級(jí)。競(jìng)賽的執(zhí)行任務(wù)由推薦系統(tǒng)副總裁詹姆斯·貝內(nèi)特(James Bennett)和Pure Atria前工程師斯坦·蘭寧(Stan Lanning)承擔(dān),后者曾和哈斯廷斯一道改進(jìn)了Cinematch并負(fù)責(zé)電影評(píng)分系統(tǒng)。
蘭寧面目和善,頭發(fā)稀少,留著長(zhǎng)長(zhǎng)的灰白胡須,他的黑黝黝的辦公空間擺了一排監(jiān)視器,角落里還擺著一副腳踏彈簧、真人大小的塑料骨架。
史蒂夫·斯韋齊和肯·羅斯在《紐約時(shí)報(bào)》上發(fā)了一篇關(guān)于“網(wǎng)飛獎(jiǎng)”的報(bào)道,但在2006年10月2日競(jìng)賽發(fā)起時(shí),該報(bào)道以頭版新聞方式見(jiàn)報(bào)還是讓他們感到驚訝。美國(guó)和國(guó)際媒體紛紛報(bào)道這則新聞,截至當(dāng)天結(jié)束時(shí),有超過(guò)5000個(gè)團(tuán)隊(duì)和個(gè)人報(bào)名參賽。斯韋齊對(duì)自己當(dāng)天的工作評(píng)價(jià)必然和網(wǎng)飛的新聞報(bào)道密切相關(guān),對(duì)他而言,媒體對(duì)于公告的亢奮反應(yīng)就像看到選舉結(jié)果撲面而來(lái),同時(shí)又得知其候選人以壓倒性優(yōu)勢(shì)獲勝。斯韋齊后來(lái)把這個(gè)獎(jiǎng)項(xiàng)比作為極客而設(shè)的“普利克內(nèi)斯大獎(jiǎng)賽”“世界杯”和“超級(jí)碗”獎(jiǎng)項(xiàng)的合體。
在接下來(lái)的3年里,來(lái)自186個(gè)國(guó)家的4萬(wàn)多個(gè)團(tuán)隊(duì)報(bào)名參加了這個(gè)百萬(wàn)美元大賽,他們被有史以來(lái)發(fā)布的最大數(shù)據(jù)集和此次競(jìng)賽的友好氛圍深深吸引。隨著他們開(kāi)始在網(wǎng)飛維護(hù)的即時(shí)排行榜上發(fā)布自己的成果,并在討論組中談?wù)撟约旱倪M(jìn)展情況,科學(xué)家、數(shù)學(xué)家和感興趣的業(yè)余愛(ài)好者們逐漸從零起步,創(chuàng)建了世界上最精確的推薦引擎。
其中有一個(gè)統(tǒng)計(jì)人員團(tuán)隊(duì),他們致力于尋找預(yù)測(cè)人類行為的新途徑。
美國(guó)電話電報(bào)公司香農(nóng)實(shí)驗(yàn)室位于一處綠色原野的淺洼地,緊挨著新澤西州弗倫翰公園郁郁蔥蔥的參天大樹(shù),這里距離曼哈頓有90分鐘的火車(chē)車(chē)程。這片綜合建筑是方正的幾何體,有一個(gè)干凈、設(shè)計(jì)低調(diào)、整齊的大廳,中規(guī)中矩的走廊從大廳向外輻射。一面墻壁變成了畫(huà)廊,展示的照片要么是這個(gè)獨(dú)立王國(guó)里的知名科學(xué)家,要么是一些文物,比如作為裝飾的早期電話機(jī)和古董級(jí)電子設(shè)備。
每層樓都有一間舒適的休息室,圍繞著老式黑板布置有藝術(shù)風(fēng)格的沙發(fā)和椅子,大家會(huì)坐在這里醞釀?lì)^腦風(fēng)暴。網(wǎng)狀過(guò)道營(yíng)造出相當(dāng)寬敞的辦公面積,走廊一側(cè)有一面大白板,另一側(cè)則是一排窗戶,可以俯瞰修剪整齊的綠地。家具非常實(shí)用,包括研究員羅伯特·貝爾(Robert Bell)在內(nèi),許多人的辦公空間都沿墻整齊堆放著齊腰高的資料。
貝爾是個(gè)靦腆的加州本地人,1998年來(lái)到美國(guó)電話電報(bào)公司香農(nóng)實(shí)驗(yàn)室。網(wǎng)飛宣布舉行競(jìng)賽之后一兩天,公司研究事務(wù)執(zhí)行董事克里斯·沃林斯基(Chris Volinsky)就給弗倫翰公園的大約20名研究人員發(fā)了電子郵件,貝爾就是這樣聽(tīng)說(shuō)了“網(wǎng)飛獎(jiǎng)”。沃林斯基領(lǐng)導(dǎo)著美國(guó)電話電報(bào)公司的數(shù)據(jù)挖掘小組,該小組10多年來(lái)一直在大規(guī)模預(yù)測(cè)客戶潛在行為:哪些客戶有可能購(gòu)買(mǎi)iPhone,哪些客戶有可能開(kāi)設(shè)欺詐賬戶,與美國(guó)客戶群相關(guān)的日益演變的風(fēng)險(xiǎn)有哪些。
數(shù)據(jù)挖掘是在龐大數(shù)據(jù)集中尋找預(yù)測(cè)性或關(guān)鍵性模式的過(guò)程:在生成谷歌搜索排名結(jié)果的數(shù)十億個(gè)網(wǎng)站頁(yè)面進(jìn)行即時(shí)分類和篩選;在計(jì)算機(jī)輔助醫(yī)學(xué)掃描過(guò)程中檢測(cè)正常細(xì)胞的異常情況;或者猜測(cè)一組信用卡持有人的收支情況,從而揭示其對(duì)美國(guó)的潛在威脅。
科學(xué)家主持的數(shù)據(jù)挖掘必須寫(xiě)出算法,這種算法能觀察數(shù)據(jù)集的重要模式,還能清除看似重大但不會(huì)有什么結(jié)果的關(guān)系。
沃林斯基是個(gè)合群的人,他童年時(shí)代對(duì)棒球統(tǒng)計(jì)數(shù)字的酷愛(ài)使他從事了數(shù)據(jù)挖掘工作。他喜歡競(jìng)賽的原因,不單是為了展示美國(guó)電話電報(bào)公司實(shí)驗(yàn)室的能耐,他很想在新興領(lǐng)域內(nèi)和世界級(jí)天才一決雌雄。沃林斯基同樣愛(ài)看電影,他和同樣在棒球統(tǒng)計(jì)領(lǐng)域發(fā)現(xiàn)自己事業(yè)所在的貝爾很高興有機(jī)會(huì)測(cè)試浩瀚的網(wǎng)飛真實(shí)數(shù)據(jù),這些數(shù)據(jù)規(guī)模超過(guò)他們所見(jiàn)到的其他數(shù)據(jù)。
貝爾曾經(jīng)在“網(wǎng)飛獎(jiǎng)”之前參加過(guò)多次競(jìng)賽并從中勝出,但本次比賽的百萬(wàn)美元懸賞和開(kāi)放性——只要有個(gè)人電腦和互聯(lián)網(wǎng)連接,任何人都可以參加——給競(jìng)賽平添了特殊魅力。它很快成為貝爾參加的各個(gè)學(xué)術(shù)研究團(tuán)體的主要話題,他渴望通過(guò)這次機(jī)會(huì)了解自己和同行之間的勝負(fù)情況。
沃林斯基在“網(wǎng)飛獎(jiǎng)”宣布不久就組織了一次頭腦風(fēng)暴會(huì)議,與會(huì)者大約有15人,但幾周后活躍分子就銳減到3人,分別是貝爾、沃林斯基和他們年輕的以色列同事耶胡達(dá)·科倫(Yehuda Koren)。
最初,他們只是持觀望態(tài)度,看到網(wǎng)飛發(fā)起的排行榜提出了數(shù)百個(gè)解決方案,其中至少有兩個(gè)在一周內(nèi)對(duì)Cinematch實(shí)施了改進(jìn)。一個(gè)月后,參賽成員已經(jīng)有幾千個(gè)團(tuán)隊(duì),其中最棒的一個(gè)團(tuán)隊(duì)已經(jīng)利用完全原創(chuàng)的解決方案將Cinematch的預(yù)測(cè)能力提高了4%。百萬(wàn)獎(jiǎng)金的角逐賽不僅吸引了數(shù)據(jù)挖掘精英,還吸引了精通機(jī)器語(yǔ)言的專家和數(shù)學(xué)界精英,以及絕頂聰明的軟件開(kāi)發(fā)業(yè)余愛(ài)好者,甚至包括心理學(xué)家。
每個(gè)團(tuán)隊(duì)每天僅可提供一個(gè)方案,但大家都在沒(méi)日沒(méi)夜地?zé)崃矣懻摚粩嘤衼?lái)自世界各地的參賽者登錄網(wǎng)飛維護(hù)的論壇。
對(duì)科倫來(lái)說(shuō),這種匯聚天才頭腦探討同一個(gè)問(wèn)題的非正式交流很有吸引力。他會(huì)在家里和辦公室花費(fèi)數(shù)小時(shí)鼓搗他們的方程式,試圖在進(jìn)展神速的排行榜上保持領(lǐng)先地位。每次調(diào)整方程式都要花費(fèi)至少一周,這只能壓縮常規(guī)工作時(shí)間,從而保證用一天寫(xiě)出擬定解決方案,用幾個(gè)小時(shí)在功能強(qiáng)大的計(jì)算機(jī)上運(yùn)行龐大的數(shù)據(jù)集,用更多時(shí)間分析結(jié)果、進(jìn)行調(diào)整,然后花幾個(gè)小時(shí)重新運(yùn)行數(shù)據(jù)。每個(gè)人都會(huì)在閑暇時(shí)思考競(jìng)賽事宜,或許一覺(jué)醒來(lái),就想出了一個(gè)更好的改進(jìn)方法。
他們準(zhǔn)備在比賽進(jìn)行到第4個(gè)月時(shí)將自己的參賽團(tuán)隊(duì)BellKor推上排行榜。網(wǎng)飛使用一組秘密測(cè)試數(shù)據(jù)驗(yàn)證了他們的結(jié)果,然后允許BellKor團(tuán)隊(duì)進(jìn)入第20名賽位。從那時(shí)起,科倫就為之癡迷,推動(dòng)沃林斯基和貝爾奮力沖頂排行榜。他說(shuō):“讓我們看看是否能進(jìn)入前10名,然后是前5名,前3名。”
2007年4月,他們短暫占據(jù)第一賽位,不過(guò)幾天后就被擠了下來(lái)。在幾周時(shí)間內(nèi),他們一直和來(lái)自普林斯頓的“恐龍星球”、4支匈牙利研究團(tuán)隊(duì)之一的“重力”團(tuán)隊(duì)開(kāi)展?fàn)帄Z頭把交椅的拉鋸戰(zhàn)。BellKor在階段性的第8個(gè)月再次奪魁,而這次他們守住了名次。他們將Cinematch的預(yù)測(cè)能力提高了8.4%,從而獲得了第一筆金額達(dá)5萬(wàn)美元的“進(jìn)步獎(jiǎng)”。隨著他們進(jìn)入第二年賽季,似乎就要將大獎(jiǎng)收入囊中。
算法推薦
1999年,當(dāng)包括哈斯廷斯在內(nèi)的網(wǎng)飛創(chuàng)始軟件工程師打算設(shè)計(jì)一個(gè)推薦引擎時(shí),他們的初始方法都相當(dāng)幼稚,想通過(guò)共同屬性,即流派、演員、導(dǎo)演、背景、戲劇或悲劇將電影歸類。隨著電影庫(kù)存的增多,這種方法被證明很煩瑣,而且不準(zhǔn)確,因?yàn)闊o(wú)論他們賦予每部電影多少屬性,他們都無(wú)法捕獲《風(fēng)月俏佳人》(Pretty Woman)和《美國(guó)舞男》(American Gigolo)的區(qū)別所在。這兩部電影都是理查·基爾(Richard Gere)主演并以美國(guó)大城市為背景的賣(mài)淫題材影片,但兩者不可能吸引同一批觀眾。
早期推薦引擎無(wú)法進(jìn)行預(yù)測(cè)。一次廣為人知的失誤是,沃爾瑪網(wǎng)站向?qū)ふ摇昂谌藲v史月”相關(guān)電影的購(gòu)物者推薦了電影《人猿星球》(Planet of the Apes),之后它不得不致歉并終止其引擎運(yùn)行。
接下來(lái),網(wǎng)飛的軟件工程師轉(zhuǎn)向了一個(gè)“最相似”算法,這種算法主要是基于用戶的電影愛(ài)好對(duì)其進(jìn)行分組,而不是將影片串聯(lián)起來(lái)。
到“網(wǎng)飛獎(jiǎng)”宣布舉行時(shí),訂閱用戶已經(jīng)對(duì)6萬(wàn)部電影和電視節(jié)目進(jìn)行了10億次評(píng)分,這是一個(gè)豐富的數(shù)據(jù)集,只是Cinematch沒(méi)有探測(cè)到它的微妙之處。
BellKor和其他團(tuán)隊(duì)從零起步,寫(xiě)出了各自的推薦算法,而且他們?cè)诙潭處讉€(gè)月內(nèi)就經(jīng)歷了網(wǎng)飛花費(fèi)數(shù)年時(shí)間走過(guò)的學(xué)習(xí)曲線,之后更是超越了這一局限。他們創(chuàng)建的算法發(fā)現(xiàn)了龐大數(shù)據(jù)集的玄妙之處,而這些對(duì)沃林斯基、貝爾和科倫來(lái)說(shuō)是完全陌生的。算法分析了根據(jù)訂閱用戶評(píng)分創(chuàng)建的模式,給電影分配了它自己的描述符,這些描述比“導(dǎo)演”“演員”“流派”之類的標(biāo)簽更豐富也更精確,但對(duì)人類思維而言沒(méi)有任何實(shí)際意義。
例如,貝爾注意到,這個(gè)算法“學(xué)習(xí)”到喜歡伍迪·艾倫電影的訂閱用戶往往只關(guān)心艾倫主演(或者在他職業(yè)生涯的某個(gè)時(shí)期或者在特定背景下主演)的特定類型電影,從而不再推薦相關(guān)導(dǎo)演的其他作品。
第二年賽季的進(jìn)展放緩了,尤其是BellKor在“網(wǎng)飛獎(jiǎng)”規(guī)則要求的一篇論文中泄露了它的解決方案,BellKor團(tuán)隊(duì)眼睜睜地看著別人借助他們的方法日益逼近。他們開(kāi)始在對(duì)Cinematch8.6%的改進(jìn)率上停滯。
第二年賽季即將過(guò)半時(shí),科倫在雅虎以色列研究院謀得一份工作,他不確定自己未來(lái)的發(fā)展方向,只好在離開(kāi)前全力解決這個(gè)難題。他們的發(fā)展勢(shì)頭時(shí)而放緩到0.5個(gè)百分點(diǎn),時(shí)而放緩到0.1個(gè)百分點(diǎn),于是貝爾和沃林斯基把目光投向了排行榜,要尋找能帶領(lǐng)他們走出低谷的新鮮血液。
一個(gè)被稱為“大混沌”的新團(tuán)隊(duì)(兩個(gè)年輕的奧地利數(shù)學(xué)家,他們?cè)鵀锽ellKor奠定開(kāi)局年基礎(chǔ),其排名正在飆升)吸引了貝爾和沃林斯基的注意。在一次旨在觀察其解決方案和性格是否符合要求的科技“相親”中,貝爾給這個(gè)團(tuán)隊(duì)的安德烈亞斯·托斯凱爾(Andreas Toscher)和邁克爾·亞赫里爾(Michael Jahrer)發(fā)送了電子郵件,探討達(dá)成某種聯(lián)盟的可能性。BellKor團(tuán)隊(duì)在一系列電子郵件溝通之后,確信托斯凱爾和亞赫里爾會(huì)坦誠(chéng)以待,他們?cè)谠窖箅娫捴羞_(dá)成聯(lián)手,結(jié)成“大混沌中的BellKor”團(tuán)隊(duì)。
接著,他們開(kāi)始尋找會(huì)影響人們以特定方式進(jìn)行電影評(píng)分的環(huán)境和心理因素。訂閱用戶在周末評(píng)分時(shí)會(huì)不會(huì)比平日多少寬容些?一次給很多電影評(píng)分會(huì)導(dǎo)致什么后果?人們會(huì)不會(huì)基于心情給出不同評(píng)分?如果是,怎樣將其量化?
作為苛刻評(píng)分人或者寬容評(píng)分人的個(gè)人性格是否會(huì)隨時(shí)間發(fā)生變化?如果是,變化的方式和原因是什么?
每個(gè)問(wèn)題都變成了有關(guān)其自身的一個(gè)有待測(cè)試的方程式,在結(jié)果一致且相關(guān)的情況下,這個(gè)方程式會(huì)被并入構(gòu)成其制勝公式的方程組中。
由于對(duì)Cinematch的改進(jìn)停滯在令人痛苦的0.5和0.1個(gè)百分點(diǎn),有一小部分電影逃避了分類,并在第二年成為橫亙?cè)凇熬W(wǎng)飛獎(jiǎng)”參賽選手及百萬(wàn)美元支付日之間的主要障礙。這些電影通常具有諷刺性或爭(zhēng)論性,至于它們是杰作還是垃圾,觀眾和評(píng)論家有迥然不同的看法。
這類電影中的典型,是獨(dú)立制作的荒誕片《大人物拿破侖》(Napoleon Dynamite)(這個(gè)片名在所有BellKor模型中導(dǎo)致了最大出錯(cuò)率)以及具有政治傾向性的電影,后者如邁克爾·摩爾的紀(jì)錄片《華氏911》(Fahrenheit 9/11),講述針對(duì)紐約和華盛頓的恐怖襲擊及第二次伊拉克戰(zhàn)爭(zhēng)。
當(dāng)對(duì)《我愛(ài)哈克比》(I Heart Huckabees)《迷失東京》《水中生活》(The Life Aquatic with Steve Zissou)和《耶穌受難記》(The Passion of the Christ)之類的電影打分成為一種冒險(xiǎn)行為時(shí),預(yù)測(cè)訂閱用戶會(huì)選擇哪一方評(píng)分會(huì)帶來(lái)歧視性。此前的評(píng)分完全沒(méi)有表明人們對(duì)這類電影的感受。
貝爾推論說(shuō),《大人物拿破侖》問(wèn)題的解決方案不僅在于找到類似電影,還要教會(huì)算法在它并未足夠了解某個(gè)訂閱用戶的情況下進(jìn)行大膽預(yù)測(cè)。這樣的結(jié)果就是一個(gè)方程式,它會(huì)忽略那些評(píng)分過(guò)低或者那些對(duì)每一類型電影打分過(guò)高的訂閱用戶,或者忽略少量忽高忽低的評(píng)分。
盡管第二年有了開(kāi)創(chuàng)性見(jiàn)解,團(tuán)隊(duì)只是在上一年進(jìn)展的基礎(chǔ)上勉強(qiáng)實(shí)現(xiàn)了1%的提高。“大混沌中的BellKor”再次斬獲5萬(wàn)美元的“進(jìn)步獎(jiǎng)”,其獎(jiǎng)項(xiàng)寶庫(kù)日益充實(shí),其中包括他們上一年贏取并放置在美國(guó)電話電報(bào)公司香農(nóng)實(shí)驗(yàn)室大廳的“好萊塢星光大道”之星的俗氣復(fù)制品。
2009年退休的網(wǎng)飛員工貝內(nèi)特懷疑究竟有沒(méi)有人能拿到百萬(wàn)大獎(jiǎng)。2009年1月,競(jìng)賽再次隆重啟動(dòng)。為了贏取大獎(jiǎng),各團(tuán)隊(duì)拼命拉近與“大混沌中的BellKor”成果之間不足1%的差距,使得排行榜上熱鬧非凡。
各團(tuán)隊(duì)開(kāi)始了規(guī)模宏大的組合,希望各種方法的結(jié)合有助于彌合最后幾個(gè)千分點(diǎn)的差距,使其超越10%的閾值。“大混沌中的BellKor”也開(kāi)始尋找新思路。他們找到了兩個(gè)法裔加拿大軟件程序員馬丁·沙貝爾(Martin Chabbert)和馬丁·皮奧特(Martin Piotte),兩人結(jié)合了“進(jìn)步獎(jiǎng)”獲勝方程式和自己的非主流解決方案,剛剛進(jìn)入排行榜。
沙貝爾和皮奧特自稱“實(shí)用主義理論”團(tuán)隊(duì),他們沒(méi)有接受過(guò)任何有關(guān)數(shù)據(jù)挖掘方法的培訓(xùn),而且他們有意不去學(xué)習(xí)大獎(jiǎng)賽前兩年生成的研究結(jié)果。他們說(shuō),他們喜歡的解決方案是發(fā)現(xiàn)訂閱用戶數(shù)據(jù)或心理因素方面的模式,并將其轉(zhuǎn)化為有效的軟件模型。他們排斥外部電影數(shù)據(jù),注重預(yù)測(cè)評(píng)分結(jié)果,而不嘗試?yán)盟鼈兊墓綄?duì)其加以說(shuō)明。
“這個(gè)算法能發(fā)現(xiàn)存在于無(wú)窮灰影部分的實(shí)際數(shù)據(jù)模式,它比分配給黑白盒的任何形式的元數(shù)據(jù)更加強(qiáng)大。”沙貝爾說(shuō)。
他們的創(chuàng)造力將其聯(lián)合團(tuán)隊(duì)(現(xiàn)在被稱為“BellKor的實(shí)用主義混沌”)的改進(jìn)速度提高了關(guān)鍵性的0.65個(gè)百分點(diǎn),使他們?cè)?009年6月26日突破了10%這一閾值。
“網(wǎng)飛獎(jiǎng)”要求一個(gè)為期30天的最后挑戰(zhàn)期,參賽團(tuán)隊(duì)可以在此期間挑戰(zhàn)BellKor可能勝出的提案,這讓他們所有人都感到傷透腦筋。幾個(gè)排名靠前的團(tuán)隊(duì)結(jié)合為“合唱組”團(tuán)隊(duì),并在2009年7月25日提交了一個(gè)領(lǐng)先BellKor團(tuán)隊(duì)0.04個(gè)百分點(diǎn)的解決方案。
在競(jìng)賽截止前扣人心弦的24小時(shí)里,科倫和“BellKor的實(shí)用主義混沌”團(tuán)隊(duì)不停地接觸,竭力從其方程組中額外取得0.1或0.2個(gè)百分點(diǎn)。他們最終提交了自己最后也是最好的解決方案,并分別在4個(gè)國(guó)家等待競(jìng)賽落幕。20分鐘后,“合唱組”的結(jié)果領(lǐng)先了“BellKor的實(shí)用主義混沌”0.01個(gè)百分點(diǎn)。
比賽結(jié)束大約一個(gè)小時(shí)之后,網(wǎng)飛陷入了沉默。正在西雅圖度假的沃林斯基每隔一段時(shí)間就會(huì)溜到一邊檢查他的電子郵件。當(dāng)初他們贏得兩項(xiàng)“進(jìn)步獎(jiǎng)”時(shí),網(wǎng)飛在獲獎(jiǎng)幾分鐘之內(nèi)就發(fā)來(lái)了通知。
心情沮喪的沃林斯基與回到新澤西的貝爾和其他團(tuán)隊(duì)成員交換了意見(jiàn),并決定關(guān)掉自己的手機(jī)。他忍不住一次次點(diǎn)擊刷新按鈕,當(dāng)電子郵件完成加載時(shí)他看到了想要的東西:來(lái)自網(wǎng)飛的信息。
他們贏了。
“BellKor的實(shí)用主義混沌”團(tuán)隊(duì)成員們第一次現(xiàn)身,他們聚集在紐約市四季酒店的新聞發(fā)布會(huì)上接受哈斯廷斯頒發(fā)的獎(jiǎng)?wù)拢鱿瘯?huì)議的有美國(guó)電話電報(bào)公司實(shí)驗(yàn)室主任、哈斯廷斯、網(wǎng)飛首席技術(shù)官尼爾·亨特、“合唱組”團(tuán)隊(duì),還有一個(gè)記者團(tuán)。
哈斯廷斯本不愿意去紐約召開(kāi)新聞發(fā)布會(huì),而是希望在洛斯加托斯舉行,但斯韋齊堅(jiān)持這么做。他知道,這個(gè)獎(jiǎng)項(xiàng)及其將近3年來(lái)的爭(zhēng)奪戰(zhàn)已經(jīng)吸引了全球科學(xué)界及相當(dāng)多普通人的關(guān)注。他們的成就值得通過(guò)一個(gè)全力以赴組織的正式典禮加以慶祝,儀式上要有演講、要有授予獲勝者金牌獎(jiǎng)?wù)碌沫h(huán)節(jié),還要安排媒體采訪。
典禮結(jié)束后,獲勝團(tuán)隊(duì)召開(kāi)了一次技術(shù)簡(jiǎn)介會(huì)議,對(duì)他們的成功之路加以說(shuō)明。到場(chǎng)人數(shù)讓斯韋齊非常興奮,幾乎所有媒體都愿意留下來(lái)聽(tīng)取極其晦澀且長(zhǎng)達(dá)一個(gè)小時(shí)的情況介紹,這更讓他感到喜出望外。這次會(huì)議強(qiáng)調(diào)了斯韋齊3年來(lái)在幕后所做的扎實(shí)工作,因?yàn)樗ぐl(fā)了媒體對(duì)一場(chǎng)科學(xué)競(jìng)賽的興趣。為了慶祝自己當(dāng)天成功制造頭條新聞,他從四季酒店的拐角處溜出去,一個(gè)人享用了價(jià)格不菲卻平淡無(wú)奇的壽司晚餐,一切樂(lè)趣戛然而止,這讓他感到一絲凄涼。
“網(wǎng)飛獎(jiǎng)”的新聞發(fā)布會(huì)形式及其品牌橫幅、醒目的道具和高科技硬件,后來(lái)成為低調(diào)的網(wǎng)飛國(guó)際服務(wù)推介會(huì)的范本。
貝爾和沃林斯基并未保留這筆獎(jiǎng)金,而是各自指定了一個(gè)慈善機(jī)構(gòu)作為捐贈(zèng)對(duì)象。根據(jù)競(jìng)賽規(guī)則的要求,美國(guó)電話電報(bào)公司授權(quán)網(wǎng)飛使用勝出算法,并將它應(yīng)用到自己的U-verse電視服務(wù)中,以監(jiān)測(cè)用戶的觀看習(xí)慣,并推薦他們可能喜歡的節(jié)目。
這次比賽成就了一個(gè)頗為先進(jìn)的推薦系統(tǒng),它能從行為線索中讀取人們的觀影喜好,也不再需要評(píng)分系統(tǒng)提供過(guò)多信息,尤其是當(dāng)它搭配一個(gè)流媒體應(yīng)用程序時(shí)。例如,這個(gè)系統(tǒng)可以快速測(cè)定特定訂閱用戶在星期一至星期五的某個(gè)晚上觀看喜劇、在周末肆意觀看幾集警察題材的電視劇,或在特定演員或場(chǎng)景出現(xiàn)時(shí)回看劇情的情況。
“我們?cè)讷@取你的喜好信息,而你什么都不用做。”沃林斯基在比賽結(jié)束后告訴我。訂閱用戶甚至不需要再為電影打分,因?yàn)榍度霗C(jī)頂盒或網(wǎng)飛網(wǎng)站的一個(gè)程序會(huì)監(jiān)測(cè)他們觀看的節(jié)目和電影及觀看方式,從而弄清楚其選擇是否值得記憶,以及如何在流媒體庫(kù)提供的電影上重復(fù)這一經(jīng)驗(yàn)。如果算法精確的機(jī)會(huì)比失誤的機(jī)會(huì)多,它就具備了一個(gè)成功品牌的要素——用戶的信任。
Cinematch算法代表著市場(chǎng)營(yíng)銷(xiāo)和技術(shù)的聯(lián)姻,它賦予了網(wǎng)飛如此非凡的成就。由于用戶在有限的DVD倉(cāng)庫(kù)中發(fā)現(xiàn)了他們想要的東西,他們會(huì)在離開(kāi)視頻門(mén)店之后上網(wǎng)追隨網(wǎng)飛。他們給予這家公司的信任(輔以倫道夫的直觀用戶界面和無(wú)敵客戶服務(wù),以及哈斯廷斯的美妙算法),使得它可以將電影租賃模式順利轉(zhuǎn)向流媒體傳輸,而其他諸多公司曾在這個(gè)領(lǐng)域遭遇了滑鐵盧。