商品簡介
我們如今看到的各種互聯網產品的改版以及創新,其背後都離不開許多上市之前的試驗工作,其中被互聯網、移動互聯網行業廣泛應用的試驗方法是A/B測試。A/B測試的本質是試驗,作為一種新興的網頁優化方法,通過對比試驗增加轉化率和注冊率,帶來產品和運營的創新,以實現各項指標的增長,如今它更是增長黑客所必備的核心思維方式和工作方法。在流量日漸昂貴、精細化運營的大環境下,互聯網產品、運營和市場營銷人員需要具有A/B測試思維,以測試結果為依據做決策,優化頁面,提高轉化率,迭代產品。
本書作者因在谷歌總部工作時發現了A/B測試的巨大作用而回國創業,並將自己對試驗的理解和多年的經驗進行梳理,在書中介紹了試驗的本質、A/B測試的概念和價值、A/B測試的方法論和實戰步驟,以及電商、金融、教育、旅遊、快消品、UGC、PGC、媒體網站、SaaS等行業的應用案例,著陸頁、App、網站、服務器端和推薦算法等不同場景的優化案例,還有針對決策者、產品經理、互聯網運營、市場營銷和工程師的測試案例。
作者簡介
王曄(Sando Wang),吆喝科技公司創始人,清華大學電子工程系碩士、耶魯大學計算機科學博士學位,中國互聯網試驗創新領域布道師,“中國創新創業大賽”與“千人計劃創業大賽”雙料冠軍獲得者。先後就職於NEC、微軟、谷歌等國際知名公司,任職期間負責 P2P 流媒體優化、P4P/ALTO、Google Adwords 質量與移動廣告新產品等前沿項目的設計、開發及優化工作,積累了大量試驗創新的理論和實戰經驗。歷任IEEE移動計算、GLOBECOM互聯網協議與車輛技術評論專家、ACM外部審核專家、2009年對等網絡國際研討會、超現代化的通訊和控制系統2010、2011年國際會議TPC成員。
王曄於2014年回國創立吆喝科技公司,率先將硅谷先進的 A/B 測試理論、方法與技術引入中國,與國內外優秀企業一同探索中國特色的試驗創新之路。目前,吆喝科技公司已經幫助數千家企業用戶成功運行數萬組試驗,並榮獲2018年人工智能及大數據產業“具投資價值的公司”的稱號、2018年盛景創新大獎全球20強等獎項。
名人/編輯推薦
本書出版目的是普及A/B測試基礎理念與實踐理論,希望通過傳遞硅谷科技創新理念,幫助國內優秀企業快速掌握試驗創新基礎技巧,適合初學者,如需了解更為專業的技術點可咨詢作者。
無論是數據驅動、精細化運營還是增長黑客,這些都並非真正推動業務的自驅動力,真正具有普適價值、能夠賦能每個組織、每個人的思維與技術是——試驗,是——A/B測試。這不僅是一次次的技術探索,還是由決策探索、運營探索、產品探索、營銷探索、設計探索構成的創新增長巨輪。
前谷歌廣告業務的設計、開發和優化參與者、耶魯大學計算機科學畢業、“中國創新創業大賽”與“千人計劃創業大賽”雙料冠軍獲得者——王曄博士,首次深入淺出地講解A/B測試的理論和實踐,特別介紹試驗和新興熱點相結合的展望。李豐、宋星、曲卉、範冰、蔣濤等17位公司高管、KOL推薦!
序
前言 試驗不息 創新不止
1. 從一個故事說起
2013年的一天早上,我在谷歌(Google)總部廣告質量部門的辦公室裡盯著顯示器上的圖表,站在我身旁的是穿著正式的廣告產品經理。“看現在的試驗數據,我們申請把流量推上20%吧?”“先看看美國地區的細分結果。” 類似這樣的嚴肅討論幾乎天天都在發生,在我的辦公室發生,也在幾乎每一個其他小團隊的辦公室發生。
你可能想問,這個對話到底在討論什麼?當時我們團隊正在做一個試驗,用A/B測試的方法來實施的在線試驗。我們需要每天(有時候每小時)觀察試驗數據,做出項目的下一步決策,如果這個決策的可能影響比較重大,比如會影響到谷歌20%的用戶,那麼我們需要向上級匯報以得到領導的支持。
我們做的試驗是個大膽的想法,這個想法來自搜索部門的產品經理。搜索產品想試試看把谷歌搜索結果(包括廣告)裡的URL換成結構化的域名,比如把http://www.appadhoc.com/lpo"換成"AppAdhoc.com > LPO"。這麼做會不會提升用戶瀏覽搜索結果的效率從而提升用戶的廣告點擊率呢?這樣的事情從來沒有人做過,包括谷歌的競爭對手們也沒有做過。這樣的改動用戶會喜愛嗎?這樣做會不會讓用戶更容易找到想要的搜索結果?有可能,但也不一定,答案似乎見仁見智。沒有人能預測這個項目會不會有收益,更沒法預測具體會對廣告營收帶來1%的影響還是10%,0.1%,或者沒有任何影響。
如果按照“傳統”的企業決策流程,產品經理可以圍繞這個想法做一些用戶調研,然後將項目匯報給領導,如果領導覺得值得一試(很多情況下領導會勸產品經理放棄),會組織會議進行討論,因為會議上有人喜歡這個想法有人不喜歡,最終的會議決議可能會放棄這個想法。
谷歌的做法不一樣,產品經理將想法口述給領導,領導同意跑一個“2%流量”的試驗。技術團隊花了幾天完成了研發和測試,試驗很快就上線了。2%的搜索流量被采樣進入試驗,其中1%的用戶作為對照組會看到URL(比如"http://www.appadhoc.com/lpo"),另外1%的用戶作為試驗組會看到域名(比如“AppAdhoc.com > LPO")。這兩組用戶的廣告點擊率被準確的采樣統計,然後對比分析,得出了實時的試驗結果。試驗結果不是很顯著,但是似乎試驗版本的樣本均值略好一點(比如 +1% [-2%,+4%]),也就是說從采樣樣本來看試驗版本的廣告平均點擊率高於對照組,但是從統計意義來看還不能確定兩者誰更好。通常情況下,試驗結果不顯著是因為樣本量不足,所以我們希望做更多的分析,然後向上司建議將試驗推送給更多的用戶(20%),獲得更多的試驗樣本,以期待有可能得到更明確的試驗結果。
這樣的試驗項目在谷歌很常見。具體的說,谷歌每個月都會運行1000個以上的試驗。每個試驗項目的參與者來自這個大公司的各個部門:產品經理,工程師,銷售,客服,法務,質檢,策略研究者,市場人員,等等。項目的負責人通常是產品經理,她會管理工作進度,協調公司資源。項目的其他參與者會向各自部門領導匯報,保證項目決策得到相關部門的支持。
從谷歌的實踐來看,這種跨部門組建的試驗項目小團隊很有戰斗力,谷歌內部幾乎所有成功的項目都是這麼落地的。我覺得這種成功來自於試驗項目的管理得當,目標明確,路線清晰,以及特別重要的——我們可以利用強大的A/B測試。
2. A/B測試帶來了很多好處
像“URL改成域名”這樣的項目幾乎都是通過A/B測試試驗系統來實施的。由於這個原因,在谷歌內部,“項目”這個詞幾乎已經被“試驗”所完全替代。廣泛使用A/B測試為谷歌帶來了長久的巨大的好處:
? 確定可預測的業務提升:每個試驗項目的收益在完全上線之前就可以精確衡量,甚至精確到0.01%(注意,考慮到谷歌的業務體量,營收增加0.01%相當於每年多賺或者少賺數百萬美元)。如果一個試驗會帶來負增長,這個項目很可能就不會上線;只有帶來正增長的試驗項目,才會加大投入並最終推廣給全量用戶。通過A/B測試精確預測每個項目的商業回報,然後有選擇的上線項目,谷歌可以確保每年廣告收入增長約20%(約100億美元規模),從而保證了利潤和股價持續10多年的攀升。
? 低風險高效率的試錯:試驗項目必須經過小流量的灰度發布階段(例如1%的流量),只有確定達到了業務預期,並且沒有故障,沒有過負載,沒有用戶投訴,沒有誤違政策監管,沒有其他風險,才會推廣給更多用戶。這樣做大幅度降低了決策風險,把可能的損失降到最低。同時,A/B測試排除了試驗之間的互相幹擾,小流量試驗可以大量並行進行,大幅度提高了試錯效率,把互聯網迭代優化的速度推到了極致。谷歌常常有上千個試驗並行運行。
? 創新的企業文化:谷歌是一個巨型企業,在全球各地有好幾萬優秀的員工,公司有復雜的組織架構。這樣的公司很容易滋生“大公司病”,每一個決策都可能因為影響的部門太多而遭遇重重阻礙。A/B測試的低風險,高效率,以及過往的成功實踐,持續鼓勵公司的新老員工開拓思路和大膽創新,避免了故步自封的大公司病問題。創新的企業文化,是企業長久生命力的源泉。小團隊創新的工作方法,使阿米巴企業管理方法可以成功落地。
當然,有些項目並不能通過A/B測試來做,比如谷歌的電視棒項目(Chromecast),一個典型的從0到1的創新項目。對於這種沒有用戶基礎的新產品,我們雖然不能用精確方便的A/B測試,但是可以用其他的試驗方法,比如最小化可用產品的市場測試(MVP)。
3. 如何復制這個成功
試驗尤其是A/B測試的價值很高,在硅谷巨頭,華爾街,和各種創新企業都取得了巨大的成功,但是在目前的中國市場還不太成熟。在很多行業,美國企業的試驗能力和試驗效果都比我們領先很多。對比巨頭公司,Google每年的試驗數量是攜程的10倍;對比A/B測試服務商,Optimizely上的試驗數量比吆喝科技AppAdhoc上的試驗數量要多10倍。
其實無論是中國美國還是其他市場,還有很多企業沒能建立試驗創新的文化。要實現試驗驅動的增長,需要正確的在企業內建立A/B測試的文化,建設完善的基礎設施,采取正確的工作方法。通過我們多年的工作和觀察,在嘗試走試驗驅動路線的企業內,發現了一些常見的問題,大致可以分為三類:
(1) 決策者缺乏試驗的思想,項目決策謹慎但是實施堅決。這種“傳統”方法經常遇到的問題是投入3個月研發產品大改版,最後沒有業務上的回報,甚至用戶反饋還不如以前。正確的做法應該是反其道而行之,大膽假設,小心求證。不做試驗的企業雖然還為數不少,但是已經大量轉變。激烈的市場競爭下,企業越來越結果導向,對領導者和業務骨幹的要求也越來越高,大企業的各個層級的領導們越來越重視試錯和迭代。
(2) 決策者具有試驗的思想,但是缺少A/B測試的正確實施方法。雖然領導希望做A/B測試來驗證決策,但是實施起來需要投入大量人力和時間成本,容易出錯,試驗設計、試驗配置、試驗結論也常常飽受爭議,並沒有提高企業效率,甚至事倍功半,形式大於內容。這樣的組織可能處在學習互聯網思維的實踐階段,隨著互聯網產業的蓬勃發展和強大影響力,他們正在快速改進,走上正軌。
已經在正確的運用A/B測試,但是效率低頻率低。很多業務線一年嘗試的試驗不到10個,這樣的試錯速度並沒有比傳統方法提高多少,只是保證了錯誤的決策不上線,並沒有真正利用好互聯網的強大力量。對這些組織來說,目標應該是將試驗數量提高10倍,方法是人才培養和文化建設,以及采用更好的A/B測試基礎設施,鼓勵高頻高效的創新項目,增加單位員工的試驗產出。
4. 為什麼寫這本書
意識到這些企業普遍面臨的問題後,我覺得A/B測試的系統性知識和經驗會對各行各業的業務負責人很有幫助,特別是對互聯網在線業務的從業者來說是必備能力,這促成了本書的寫作。
A/B測試在各行各業的很多場景都已經有成熟的應用和不可替代的價值,特別是在互聯網產業,科學研究,基礎農業,醫療,金融,公共政策,市場營銷都非常成功。在互聯網行業,一個特別熱門的A/B測試應用場景就是產品運營的增長黑客。增長黑客借助互聯網和A/B測試的力量讓業務增長的速度遠超傳統行業,這套方法容易落地,投入產出比高,無數成功的獨角獸互聯網企業就是利用增長黑客創新創業創造了財富。本書的內容裡,會將重點放在互聯網產品運營特別是增長黑客的A/B測試上。
本書的定位是A/B測試的工具書。我們從實踐角度出發,介紹了A/B測試的理論原理,標桿企業的最佳實踐,進而詳細介紹A/B測試的實際應用場景,落地實施流程,和業務產出預期。無論你是決策者還是業務骨幹,產品負責人還是軟件工程師,內容運營還是市場經理,希望本書的思想和內容可以幫助到你。
在本書的寫作中,很多行業專家,特別是吆喝科技的專家們給我提供了豐富的案例素材和專業建議。如果沒有他們,這本書無法完成。在此,我要特別感謝劉澤軍,李淼,沈國陽,柏利鋒,張毅飛,劉飛,李想,蔣守戰,李翔宇,陳聰等等。
王曄(Sando Wang)
2018年12月
目次
贊 譽
前 言 試驗不息 創新不止
第 1章 數據驅動是試驗本質 // 1
1.1 生活處處有試驗 // 1
1.1.1 “鳥”生浮沉啟示錄:達爾文雀的自然進化試驗 // 1
1.1.2 林德試驗:現代醫學離不開 A/B 測試 // 6
1.1.3 潔面霜賣點效應:現代廣告史就是試驗發展史 // 9
1.2 數據分析與試驗 // 11
1.2.1 數據不只是數字堆疊 // 12
1.2.2 後驗數據分析的局限:數據的“漂亮”與“丑陋”// 13
1.2.3 試驗:數據驅動業務增長的唯一力量 // 15
1.3 試驗的思維 // 17
1.3.1 快速試錯的互聯網思維 // 17
1.3.2 試驗驅動創新,創業依賴試驗 // 19
1.3.3 依賴試驗的增長黑客 // 21
1.4 試驗驅動業務增長 // 23
1.4.1 試驗讓低成本探索成為可能 // 23
1.4.2 試驗驅動增長無處不在 // 25
1.4.3 試驗的頻率決定發展的速度 // 26
1.4.4 新時代,試驗文化正當時 // 28
第 2章 A/B測試是成功的試驗方法 // 31
2.1 互聯網時代的 A/B測試 // 31
2.1.1 谷歌引領的 A/B測試潮流 // 32
2.1.2 微軟、亞馬遜、臉書的經驗 // 33
2.1.3 新生代 Airbnb的融會貫通 // 36
2.1.4 A/B測試是優秀企業的標配 // 41
2.2 深入解析 A/B測試 // 42
2.2.1 A/B測試的定義 // 42
2.2.2 A/B測試的特性 // 43
2.2.3 A/B 測試的試驗類型 // 45
2.2.4 “偽”A/B測試 // 46
2.2.5 A/B 測試的統計學原理 // 51
第 3章 A/B測試的作戰計劃 // 63
3.1 試驗的戰略制定 // 63
3.1.1 明確戰略目標 // 63
3.1.2 制定戰略路線圖 // 64
3.1.3 管理試驗項目 // 68
3.1.4 搭建試驗的基礎設施 // 70
3.2 試驗的戰術執行 // 72
3.2.1 探索、驗證閉環:試驗驅動業務優化的流程 // 73
3.2.2 試驗方案設計 // 78
3.2.3 試驗的優先級排序 // 82
3.2.4 高頻試驗管理 // 85
3.3 快速上手一個試驗 // 87
3.3.1 收集數據,發現問題 // 88
3.3.2 建立試驗目標 // 90
3.3.3 提出試驗假設 // 91
3.3.4 運行試驗,驗證假設 // 93
3.3.5 分析試驗數據,做出決策 // 94
3.3.6 積跬步至千裡,持續優化是關鍵 // 95
3.4 實戰:從零開始一次 A/B測試 // 96
第 4章 A/B測試的完整解決方案 // 110
4.1 行業: A/B測試在各行業的應用 // 110
4.1.1 電商經典案例 // 110
4.1.2 金融經典案例 // 113
4.1.3 教育經典案例 // 115
4.1.4 旅遊經典案例 // 117
4.1.5 消費品牌經典案例 // 120
4.1.6 其他行業(UGC、PGC、媒體網站、SaaS)// 124
4.2 場景: A/B 測試在各種業務場景中的應用 // 132
4.2.1 著陸頁優化 // 133
4.2.2 App優化 // 139
4.2.3 網站體驗優化 // 145
4.2.4 技術優化 // 148
4.2.5 算法優化 // 151
4.2.6 基於 A/B測試的高效科學運營系統 // 154
4.3 人群: A/B測試是創新人才的必備技能 // 156
4.3.1 決策 // 157
4.3.2 產品 // 160
4.3.3 運營 // 166
4.3.4 市場 // 172
4.3.5 技術 // 174
第 5章 試驗星火,終會燎原 // 178
5.1 人工智能 // 179
5.2 新零售 // 182
5.3 AR、VR、新硬件 // 184
5.4 區塊鏈 // 186
5.5 智能城市 // 187
附 錄 // 191
附錄 A AARRR模型的介紹 // 191
附錄 B A/B測試術語表 // 194
附錄 C A/B測試需求分析模板 // 202
附錄 D 試驗檔案表格 // 203
附錄 E 快速上手一個試驗模板 // 204
掃封面上作者簡介處的二維碼,可免費獲取書中所有模板。
書摘/試閱
第 2章 A/B測試是成功的試驗方法
2.1 互聯網時代的 A/B測試
我們在前文討論了驅動創新的試驗精神和試驗思維,特別是試驗實踐在互聯網行業獲得了巨大的成功,帶來了巨大的商業價值。
在絕大多數傳統商業模式裡,產品的生產者和用戶之間有層層隔閡。業務上的試驗只能更多聚焦在市場營銷和銷售渠道,而針對產品策略的試錯往往要經過深思熟慮,節奏緩慢。
互聯網行業幾乎完全消除了產品與用戶之間的隔閡,極大地方便了互聯網企業針對最終用戶做大量深度的試驗。這是試驗驅動創新在互聯網行業大獲成功的關鍵因素。
通過多年的探索,我們已經找到了成功的試驗落地形式。
如前文所述, MVP(最小可行性產品)是互聯網創業項目最常見的試驗方法。在商業模式還沒有被完全驗證的早期階段,用最少的投入做出最小可用的產品,然後投放市場獲得用戶反饋。這種試驗可能會得到很多負面反饋,比如產品 Bug多、功能缺少、體驗差。但是 MVP試驗能幫助我們用最快的效率驗證市場需求,發掘商業機會,實現從 0到 1。
A/B測試是適合於成長期和成熟期的產品的試驗方法。互聯網業務場景實施 A/B測試的效率很高,價值很大,可以實現控制風險、高頻試錯、快速迭代、爆發增長。在業務實踐中, A/B測試結論精確,不容易出錯,可執行性很強。對於已經獲得投資的企業來說,A/B測試是必須采用的試驗方法。本書後續章節的重點都會圍繞 A/B測試展開。
針對大型項目定制化試驗方法是行業專家的核心競爭力。有很多實際項目由於受條件限制不適宜進行 A/B測試,但是又非常需要小成本試錯的能力,比如交通規劃、大型投資、建筑設計、工廠改造等。
下面我們介紹互聯網以及“ +互聯網”的行業巨頭們是如何開展 A/B測試來成功實踐“試驗驅動創新”的。
2.1.1 谷歌引領的 A/B測試潮流
2000年谷歌的工程師第一次將 A/B測試用於互聯網業務的試驗:搜索結果首頁應該展示多少條搜索結果更合適?雖然這次 A/B測試因為搜索結果加載速度和試驗數據不準確而導致失敗了,但是它開啟了谷歌持之以恒的 A/B測試之路。從那以後, A/B測試被廣泛應用於互聯網公司的優化迭代,每年數萬個試驗被谷歌、亞馬遜、 eBay、百度、阿裡巴巴等主流互聯網公司應用於在線 UI內容優化、算法優化、收益優化等方方面面。
事實上,谷歌的各條產品線每個月都有成百上千個不同的試驗版本在運行。搜索廣告產品的每一次新改動都要經過嚴格的在線 A/B測試來驗證效果,在保護用戶的搜索體驗的同時,提高谷歌的營業收入。A/B測試的試驗數據決定了大量的改動最終都不能上線(大量試驗都會得到營收負增長的試驗結果),這種科學的產品運營方式可以大幅度加速創新,改善用戶體驗,對互聯網企業事半功倍。最終通過試驗驗證而上線的改動確保了谷歌的營收規模每月可以增長約 2%。日積月累,谷歌僅僅通過數據化驅動的方式就能保證年化增長達到 20%。
隨著 A/B測試試驗系統的推出和不斷改進,谷歌幾乎所有的產品,包括新上線的產品,每一次更新都需要首先通過 A/B測試驗證。圖 2-1 是谷歌從 2007年建設好 A/B測試平臺之後的試驗數量增長情況圖,可見谷歌對於 A/B測試的重視。
圖 2-1 谷歌並發試驗數量的增長
2.1.2 微軟、亞馬遜、臉書的經驗
1. 微軟
微軟和亞馬遜這樣的“+互聯網”巨頭,還有臉書這樣的互聯網巨頭,都是在業務發展到成熟階段後開始大量進行 A/B測試的。
在這些有成熟組織架構的大公司裡,一線產品經理和工程師在設計和開發產品時,會更多地通過微創新的形式來逐步優化產品。需要強調的是,對用戶行為的深度理解,很難僅僅依靠決策者的個人洞察力。有些經驗只有通過科學的 A/B測試的試驗數據才能獲得。
微軟必應的產品優化是個很好的案例。圖 2-2b與圖 2-2a相比,只將搜索結果內容的顏色做了一些小調整 [只需要改 CSS(層疊樣式表)裡的幾行代碼 ],肉眼幾乎看不出區別,但是用戶點擊率大幅度提高,年化廣告收益增加了 1 000多萬美元。
圖 2-2 微軟必應(bing)的配色優化
2. 亞馬遜
小到顏色調整,大到產品邏輯,都可以通過 A/B測試來驅動產品的創新優化。
用亞馬遜在自己的電商網站上推廣信用卡廣告作為例子,如圖 2-3所示,這條廣告最初放在購物頁面裡,幾乎無人問津,浪費了寶貴的廣告位資源。當業務經理嘗試把這條廣告放在結算頁面時,用戶就會發現這張信用卡的好處。A/B測試的試驗數據顯示將廣告改為放在結算頁後,帶來了年化上億美元的營收增長,業務經理以試驗結果證明了自己想法的價值。
圖2-3 亞馬遜的信用卡推廣試驗
事實上,沒有哪家公司比亞馬遜更了解 A/B測試的重要性。盡管亞馬遜已成為行業巨頭,但是亞馬遜並沒有陷入大公司的官僚主義。亞馬遜的首席執行官杰夫·貝佐斯(Jeff Bezos)在給股東的信中曾這樣說:“我認為我們特別擅長試錯。我相信我們有世界上最好的試驗創新環境(我們有很多試驗),失敗和創新是不可分割的雙胞胎。創新必須要嘗試,如果你事先知道它會起作用,那就不是一個試驗。大多數大型組織都能接受創新發明的想法,但不願意承受其所帶來的失敗後果。”
此外他還談到了兩種決策:不可逆轉的決策(Ⅰ型決策)和可逆轉的決策(Ⅱ型決策)。他對於兩種決策的描述如下所示:
. Ⅰ型決策:“一些決定的後果是不可逆轉的或幾乎不可逆轉的單向門。這些決定必須經過仔細審慎和協商才能有條不紊、謹慎、緩慢地做出。如果你做了決策,不喜歡決策帶來的改變,你也不能回到以前。”
. Ⅱ型決策:“大多數決策是可變的、可逆的,它們是雙向的。如果你做出了一個次優的Ⅱ型決策,那麼你不必忍受很長時間的後果。你可以重新決策,然後回滾。Ⅱ型決策可以並且應該由判斷力強的個人或小組迅速做出。”
隨著公司的發展,為Ⅰ型決策制定的流程被廣泛應用於包括Ⅱ型決策在內的各種選擇。用貝佐斯的話來說,無論做什麼都像針對Ⅰ型決策這般謹慎,是一種低效和不合時宜的風險厭惡,這導致了發明創新的減少。但如果不加選擇地應用Ⅱ型決策,他認為大多數公司在它們長大之前就倒下了。
A/B測試是使組織專注於使用Ⅱ型決策,做出大多數選擇的理想方法。他說:“從傳統意義上來說, A/B測試是關於至少兩個版本的產品: A版本,通常是原始或控制版本,還有 B版本,你認為可能會是更好的版本”。因此,當 A/B測試應用於Ⅱ型決策時,貝佐斯建議通過簡單地關閉B版本並返回到 A版本,輕松實現回滾。“如果在測試方向或體驗方面遇到很大的麻煩,無法在不影響測試的情況下回滾測試,你可能正在處理Ⅰ型決策。”
亞馬遜稱自己為“ A/B測試公司”,A/B測試的一個最大好處是可以延遲決策,當創新的想法被實現後,可以根據真實試驗對比數據,衡量該創新的想法是否有效。
3. 臉書
臉書是互聯網時代成長起來的巨頭。臉書在移動 App的產質量量部分和市場占有率部分都遙遙領先,臉書作為單一產品更加依賴其強大的 A/B測試試驗平臺。
臉書 App在每次上線新版本的時候都會將未來 6個月甚至更長時間內想要測試的新功能都(隱藏地)集成進代碼。臉書將這些大膽創新的功能逐個通過 A/B測試試驗的方式檢驗驗證,如果某個功能有問題,或者用戶反饋不好,在未來的代碼迭代中就會被修改或放棄;只有效果好的改動才會被推廣給全球用戶,並且在未來的代碼迭代中被保留下來。
在大量進行小流量 A/B測試的過程中,絕大多數的臉書用戶(沒有被選中試驗那些“效果不好的測試功能”的用戶)的體驗是:臉書從來沒有 Bug!一個擁有數十億用戶的、不斷更新迭代的產品,從來沒有差的體驗,體驗只會越來越好,這就是臉書的創新奧秘。
2.1.3 新生代 Airbnb的融會貫通
隨著 A/B測試在互聯網行業的成熟,新生代創新企業從創業第一天起就開始使用 A/B測試實施自己的創新試驗。 Airbnb(愛彼迎)作為一家互聯網時代的全球民宿預訂平臺,堅定地認為所有的產品改進都需要通過 A/B測試來實施,這樣才能夠直接判斷產品改動的商業價值(不僅僅是 Airbnb這樣的美國創新者,中國的今日頭條、滴滴等前沿科技企業也是如此)。
如圖 2-4所示, Airbnb的業務指標在三個月左右的時間內不斷上漲,其中一個月(紅色曲線部分) Airbnb嘗試上線了一個產品改動,並最終下線。從這三個月的業務數據來看,我們很難判斷這個產品改動是否影響了業務指標,更無法準確衡量這個產品改動具體對業務指標的貢獻有多大。如果這個產品改動對業務指標的影響是 –5%,那麼 Airbnb就白白損失了一個月的業績;如果這個產品改動對業務指標沒有什麼影響,那麼這個產品改動可能就浪費了研發資源;如果這個產品改動對業務指標的影響是 10%,那麼負責這個項目的團隊沒有得到應得的嘉獎,最終可能會造成人才的流失。
業績
日期
圖 2-4 只看業務指標的趨勢無法判斷產品改動的價值
通常外界的影響因素比產品本身的變化對業務指標的影響更大。用戶在工作日和周末及不同季節和不同天氣,因為網頁廣告或主動搜索觸達的產品都可能會表現出截然不同的行為模式。A/B測試的方法能夠幫助我們控制這些額外的因素,從而精確測量產品改動的價值。圖 2-5展示了 Airbnb采用 A/B測試並最終拒絕的某個產品功能。 Airbnb曾希望通過這個功能讓用戶在搜索結果中篩選產品的價位信息,但測試結果發現用戶使用這種篩選方式的頻率反而不如原有的篩選器。
圖 2-5 Airbnb測試並最終拒絕的某個產品功能
1. Airbnb的 A/B測試試驗設計
Airbnb所提供的服務有一定的特異性:首先,用戶不需要登錄就可以獲取服務,因此很難將用戶和行為捆綁在一起;其次,用戶在預訂房間的過程中可能會更換設備(計算機和手機);再次,預訂的過程可能會長達數天,因此需要等待時間以確定用戶完成或放棄預訂流程;最後,預訂是否成功還取決於空房的數量以及其主人的響應與否,而這些因素是 Airbnb所不能掌控的。綜合考慮這些因素後, Airbnb設計了適合自己的場景的 A/B測試流程和方法。
A/B測試中通常以點擊率或轉化率作為評價的指標。對於 Airbnb而言,預訂的流程同樣很復雜:首先,旅客需要通過搜索獲得房間的信息,然後聯系相關的房主;接下來,房主將決定是否接受旅客的需求;房主接受後,旅客才能真正預約到房間。除此之外,還有其他的路徑能夠進行預約,比如旅客可以不需要聯系房主就能預約某些房間,或者提交預約需求後直接到達最後一步。預約流程中的四個步驟如圖 2-6所示。盡管在測試過程中需要考慮 4個階段間的轉化,但 Airbnb將從搜索到最後預訂的整體轉化率作為試驗的主要指標。
圖2-6 按照預約步驟分別計算得到轉化率結果
2. 對測試結果進行情景化的解釋
A/B測試中需要避免的一個問題是習慣性地將測試結果當作一個整體來看待。一般而言,從某個固定的測量維度來評估測試的結果是沒有錯的,這樣做通常可以避免在多個維度中挑選最符合“需要”的數據,而故意忽視不符合假設的結果。但同樣,只單純考慮一個維度也意味著脫離了情景來看試驗數據,而有時候這些不同的情景可能會完全改變你對 A/B測試結果的解釋。
舉例來說, 2013年 Airbnb對搜索頁進行了改版設計。對於 Airbnb而言,搜索頁是業務流程中最基礎和重要的頁面。因此,能否準確地確定改版的效果是非常關鍵的。在圖 2-7中可以看到搜索頁改版前後的變化:新版更多強調了房源的圖片( Airbnb為房主提供專業的攝影師以獲得這些圖片)及標記了房源所在位置的地圖。
Airbnb為改版項目投入了許多資源,設計人員預測新版肯定會表現得更好,定性研究也表明確實如此。盡管不直接向全部用戶發布新版可能意味著大量的利益損失,但 Airbnb還是延續其“試驗文化”,推進了針對搜索頁的 A/B測試以評估改版的真正效果。
舊版新版
圖 2-7 新 /舊版本的 Airbnb搜索頁
在等待了足夠長的時間後,A/B測試的結果反饋出新版並沒有帶來更多的預約。這當然是令人難以接受的,所以 Airbnb的業務分析員決定從情景出發,將數據細分到不同的情景中來判斷究竟為什麼改版沒有達到預期的效果。事實證明,問題出在 Internet Explorer(IE)上了:如圖 2-8所示,除了來自 IE的訪問以外,新版在其他主流瀏覽器上的表現都是優於舊版的。這個分析幫助 Airbnb發現了真正的問題:產品改進很有價值,但是代碼實現存在 Bug。在修復相關的問題後,源自 IE的數據也有了超出 2%的增長。
這個案例除了告訴我們在做 QA的時候要尤其注意 IE以外,也強調了從多個維度對測試結果進行解釋的價值。你可以根據瀏覽器、國家 /地區、用戶類型等多個維度分解數據來源進行分析。但需要注意的是,不要為了找到“有利”的結果而刻意去分解數據。
圖 2-8 新版設計的 A/B測試結果分析
A/B測試是產品研發過程中強有力的決策工具,能夠幫助大家更有效地進行產品優化迭代。從不同的情景中去理解測試的結果是非常重要的。你應該嘗試將數據分解到不同的維度,然後去理解不同維度下產品的效果。但是需要注意的是,A/B測試的目的在於優化產品決策,而不是為了單純提高某個優化指標。優化單個指標通常會導致為了獲得一定短期利益的機會主義決策(比如強行逼迫用戶去點擊他們不想點的東西)。
最後,驗證你所使用的測試系統是否如你所期望的一樣工作。如果 A/B測試反饋的結果有問題或者是過於理想,你都應該仔細核驗它。
2.1.4 A/B測試是優秀企業的標配
從某種角度來說,企業實力和其實施 A/B測試的能力緊密相關。如圖 2-9所示,行業龍頭因為聚攏了大量創新人才,在 A/B測試方面走在前列。
圖 2-9 公司實力與 A/B測試試驗頻率的關係
. Google每年運行超過 1萬次的 A/B測試;
. 臉書的 CEO親自參與眾多 A/B測試的實施;
. 領英(Linkedin)將 A/B測試作為產品研發上線過程中的基本流程; . Booking.com通過大量試驗實現超過同行業 2~3倍的轉化率;
. 攜程、今日頭條將試驗流程和 A/B測試作為企業的文化或制度;
. 摩拜單車、 WeWork、衣二三等明星共享經濟平臺,通過 A/B測試快速拉開了與競爭對手的距離。
不僅是互聯網明星公司,A/B測試開始在各個行業快速普及,並逐漸成為標配,如圖 2-10所示。
圖 2-10 成功使用 A/B測試的明星企業代表
2.2 深入解析 A/B測試
2.2.1 A/B測試的定義
前面的章節中介紹的幾種場景有助於幫助我們直觀理解 A/B測試。在醫學的臨床試驗中,為了驗證新藥的效果,把病人隨機分成若幹組,分別施予不同劑量的新藥、已知有療效的藥物、安慰劑等不同的治療措施,並通過數據分析判定不同組的治療效果,從而確定新藥是否有療效以及和已知藥物的療效的對比情況。在達芙妮島的雀鳥進化研究中,隨著環境的變化,雀鳥們會發生隨機的基因變異,進而導致它們的鳥喙發生大小和形狀的變化,嚴酷的自然選擇會把適應環境變化的基因保留下來。
下面我們來系統地定義 A/B測試。在互聯網產品迭代實踐中的 A/B測試是指:為了驗證一個新的產品交互設計、產品功能或者策略、算法
的效果,在同一時間段,給多組用戶(一般叫作對照組和試驗組,用戶分組方法統計上隨機,使多組用戶在統計角度無差別)分別展示優化前(對照組)和優化後(試驗組,可以有多組)的產品交互設計、產品功能或者策略、算法,並通過數據分析,判斷優化前後的產品交互設計、產品功能或者策略、算法在一個或者多個評估指標上是否符合預期的一種
試驗方法。
2.2.2 A/B測試的特性
1.預測性
A/B測試是一種預測手段,而且是一種科學、精準、具有統計學意義的預測手段。
在產品、策略迭代過程中,我們往往無法預測產品、策略全量上線的效果如何,或是擔心因此帶來預料之外的損失。 A/B測試恰好提供了通過小流量試驗預測全量上線效果的能力,這種預測並不是“裸奔”性質的臆測,而是有科學的統計數據作為支撐的科學預測,也只有這樣的預測才能從真正意義上降低產品、策略迭代過程中的風險。同時, A/B測試的統計數據也為產品迭代過程提供了很好的量化指標,可以幫助決策者準確衡量產品技術團隊的產出成績,在團隊、人員的激勵上提供科學依據。
2.並行性
A/B測試的並行性是指兩個或者多個版本同時在線,分別提供給多組用戶群體使用。並行性是 A/B測試的本質特征之一,也是 A/B測試的基本條件之一。如何理解並行性的重要性呢?我們不妨假設,用沒有並行性的試驗方法去判斷 2個版本的效果差異,會產生什麼問題:
這種試驗方法通常是讓全量用戶在不同時間段體驗不同版本的產品或者策略。由於不同時間段的試驗環境是不一樣的(如外賣、打車訂單量會受節假日、天氣等因素的劇烈影響),無法把環境變化導致的指標變化和產品迭代導致的指標變化區分開。
因此,忽視並行性也就失去了 A/B 測試的根本意義,兩組沒有統一維度的試驗數據也就失去了提供決策參考的基本價值。這點我們在後文中還會用一個例子進行說明。
另外,並行性也代表了 A/B 測試的效率特征——多種方案的並行試驗、同時對比。這大大提升了試驗結果的反饋效率,也從根本上提升了產品迭代與決策的效率。
3. 科學性
A/B測試是一種科學試驗。這個科學性體現在試驗設計的方方面面。下面重點闡述兩個方面:
(1)A/B測試的采樣方法是科學采樣方法,而非普通的隨機采樣方法。相比於普通的隨機采樣,科學采樣可以保證各版本流量具有一致的用戶統計特征,避免試驗版本全量上線以後的表現和 A/B測試期間的表現不一致。
(2)A/B測試評價結果的計算過程具有科學性。 A/B測試在評價結果的計算過程中,使用統計學裡的假設檢驗原理進行科學的計算,能夠給出結果的置信度和置信區間、試驗的 p值、試驗的統計功效等科學指標,根據這些指標可以定量判斷試驗是否有效。對於無效的試驗也可以給出進一步的試驗建議。
2.2.3 A/B 測試的試驗類型
1.正交試驗
如圖 2-11所示有 2層試驗,第一層是 P試驗,第二層是 Q試驗。在 P試驗中,用戶被分成 2組:Pa組及 Pb組。在 Q試驗中,用戶也被分成 2組:Qa組及 Qb組。
圖 2-11 正交的分層試驗
所謂的正交試驗(也叫分層試驗),就是指 Pa組用戶在 Q試驗中被均勻分入 Qa組和 Qb組,而 Pb組用戶,同樣在 Q試驗中被均勻分入 Qa組和 Qb組。
這樣做的結果是,在 Pa試驗組且在 Qa試驗組的用戶比例是 25%,在 Pa試驗組且在 Qb試驗組的用戶比例是 25%。
正交試驗是使用最廣泛的多層試驗關係。它可以使多層試驗的每一層都使用同樣多的流量去做試驗,並且使各層試驗之間的結果不會互相幹擾。注意,“各層試驗之間的結果不會互相幹擾”這個結論是有前提的:各層試驗的參數之間,對優化指標沒有互相增強或者抵消的效果。舉例來說,假設 Pa提升了 10%的效果, Qa提升了 10%的效果, Pa+Pb 疊加,提升的效果是 20%,而不是 25%(增強)或者 15%(抵消)。多數多層的試驗,都是以這個假設為基礎的。
2.互斥試驗
如圖 2-12所示, P試驗使用的流量, Q試驗不能使用,而 Q試驗使用的流量, P試驗也不能使用,這種情況叫作互斥試驗。這個試驗的好處是不用擔心正交試驗裡面,“各層試驗之間的結果不會互相幹擾”的前提不成立,而可以獨立做試驗。壞處在於,一旦把各層試驗做成互斥的,就會使每層試驗可用的流量減少,可能會使每層試驗所需的時間增加、迭代效率變低。
圖 2-12 互斥的同層試驗
2.2.4 “偽”A/B測試
要深入理解什麼是 A/B測試,我們先看看什麼不是 A/B測試。
隨著數據驅動決策的思想在互聯網及傳統企業中的普及,很多人開始重視 A/B測試。然而,有些人只是根據字面意義理解 A/B測試,而沒有對 A/B測試的根本原理進行深入的思考,因此對 A/B測試存在各種錯誤的理解。以下列舉一些常見的誤區,其中重點講述用戶分流的誤區。
1. 用戶分流不科學
一種典型的“偽 A/B測試”是在不同的應用市場發布不同版本的 App,或者在不同渠道發布不同版本的頁面,並進行用戶數據對比。實際上,A/B測試強調對照組和試驗組這 2個版本的用戶分布必須是一致的。不同的應用市場、不同的渠道,其用戶的分布會有很明顯的區別,因此通過這種方式做出來的試驗數據,不具有可信性。正確的做法是,要麼在不同的應用市場發布相同版本的 App,要麼在相同的應用市場(或者同時在多個應用市場)發布不同版本的 App,保證在同一個時間點,發生變化的只有一個變量。
為什麼不止一個變量發生變化的對比測試是偽 A/B測試呢?這就要談到辛普森悖論了。
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。