如何做好A/B Testing？ — Always Be Testing

文/張修齊

6/29 的時候，我在 Agile Summit 上分享了我們公司在 A/B Testing 的一個實戰經驗。演講後，得到許多朋友迴響，尤其是最近越來越多朋友在電商或是線上服務，發現數位廣告的轉換率越來越糟。大家都在尋找新的方法，希望可以讓潛在的用戶了解自家產品的好處，而不是片面地撒大把銀子打廣告。

A/B Testing，除了單純改改網站的按鈕顏色，或是文案及照片，更重要的是在實驗開始前，先了解自身公司的價值主張。這…聽起來距離公司行銷面有點遙遠？沒關係，這篇文章分享近期我收集到的課程及案例，把這些課程內容與自身的經驗做結合，分享給大家為什麼要進行 A/B Testing？以及要怎麼做 A/B Testing？

數位廣告轉換現狀

開始介紹 A/B Testing之前，我們先來看看數位通路導流的問題在哪裡？參考互聯網女王 2018 的趨勢報告，裡面提及，過去幾年廠商可以盡情地投放廣告，而不需要思考太多其他策略面的方法，原因是過去幾年的流量紅利包括了智慧型手機出貨量的增長，以及全球上網人數的普及。但是，如下圖所示，智慧型手機在 2016~2017 年的增長幾乎趨近於 0%。代表會買智慧型手機的人都已經買了。比較明顯的例子，是在台北搭捷運的時候，每個人手上都已經有一隻智慧型手機（除非你想要一邊追劇，一邊打手遊，這樣可能需要兩支。）

（圖片來源：https://www.digitaling.com/articles/46558.html）

下面這張全球互聯網用戶的圖表，我們也可以看到用戶增長的比率也是漸漸下降，這代表什麼？代表會上網的人也大部分都在線上了。

會買智慧型手機的人都買了，會上網的人也都在線上了，那這跟數位廣告導流轉換的關係是？

想一下，每個人每天手機上網時間的情境：可能是通勤，或是下班後無聊的時間。但每個人一天擁有的時間是固定的，不會因為多買一支手機就增加了時間，也就是說數位廣告的業主其實是在競價每個人的「時間」。

就我自己的觀察，在每個行業，新創小公司因為資金的關係，一開始不太有機會砸錢在電視廣告。原因是電視廣告的費用至少都是 10 萬起跳，還不一定保證效果！另一方面，數位廣告 — 像 Facebook 或是 Google Adwords，皆能直接安插追蹤碼在每一個消費者行為的路徑，可以很明確地知道，到底是哪一篇文章，或是哪一則廣告帶來了收益，這也造就了一波新型態電商崛起的優勢。

只是現在，連傳統的大公司也開始知道數位廣告的好處，當他們也一起跳進來搶食上網使用者注意力的時候，數位廣告的價格理所當然地就開始上揚。最明顯的例子就是今年跟幾位在電商工作的朋友說到，每次投放的 CPC 或是 CPA 價格是去年的翻倍，可是觸及率或是轉換率卻遠遠沒有以前的好。

從下圖，我們可以發現，過去幾年台灣的數位廣告量幾乎都有 20% 的成長，這也印證了有越來越多的廠商跳進來買數位廣告的趨勢。

（圖片來源：http://www.dma.org.tw/newsPost/275）

為何要進行A/B Testing？

當公司規模小的時候，產品的走向要往哪個方向走，其實很容易，「老闆說了算」（Hippo，Highest paid person’s opinion），主要就是老闆用他先前的經驗，讓目前的商業模式可以有正向的營業收入。

開始有了團隊之後，會有產品經理、設計師、工程師以及部門主管。另外，專案數量變多了，老闆不一定可以每件事情都顧到，此時每個人都有意見，聽起來又都很有道理，那該怎麼做決定？

A/B Testing，其實是一個幫助大家做決定的方法。先從一個比較巨觀的情境開始，幫助大家了解 A/B Testing。在 Forbes 這篇文章中，舉了一個花店的例子。會影響到使用者購買產品意願的可能，包括：

產品的品質（Quality of the product）
產品能否準時送達（Reliability and timeliness of delivery）
運費（Shipping costs）
「花束」本身的價錢（Bouquet pricing）

想像一下，你是這間花店的老闆，想要進行線上買賣，透過網頁讓你的消費者可以進行購買，你會怎麼進行假設？你會怎樣呈現你的網頁，直到你可以達到上面 4 個項目的為止？

農場直送鮮花，品質看得見 — “Beautiful bouquets fresh from the farm”
很直覺地聯想到，你可以安排農場採收的畫面，或是送貨的畫面，盡量把「直送」這個觀念傳達給使用者。
保證在情人節當天可以送達 — “Guaranteed Valentine’s Day delivery”
為了確保情人節當天可以送達，一種測試的方法，是一位女生在公司上班的時候，有一束花放在辦公桌旁邊，又或是單純以月曆和時鐘，呈現時間的感受。
非常低的運費 — “Low, flat-fee shipping rates”
可以直接標示出運費的價格、又或是比較眾多貨運公司的運費。
價格合理 — “Flower arrangements starting from $35”
比較與一般市面上花店的價格，可以用表格，或是直接秀出價格

假設上面是一個 Landing page，在開始建造網頁之前，花店的老闆已經有 4 個價值主張（value proposition）。實際上，要完成這些價值主張，有很多種不同的方法，我們不太可能一次就把 4 種不同的價值主張完全驗證完。比較可行的方法，就是先做出第一個版本，先確認好線上送花的這個行業是可行的。在這個先決條件成立的前提之下，我們就可以開始進一步，針對每個不同的價值主張進行 A/B Testing。

在進行 A/B Testing 時，還要先有一個心理建設，這些實驗及改變，除了能讓你在短時間看到某個按鈕好像改變後得到的成效之外，它也可以為你下一個檔期，需要曝光的行銷案，提供更明確的執行方向。

舉個例子來說：在上面第二個價值主張，是保證可以在情人節的時候把你的花送到對方手中。假設這個是使用者在乎的痛點，那麼「準時送達率」就會變成一個非常重要的 KPI（Key Performance Indicator）。可以觀察在一次的節日實驗中，收到多少通抱怨的客服電話，又或是當有人使用這個服務後，下次在節日的時候，再次使用這個服務的回購率是多少？上述兩點，都比單純在一次的A/B Testing 得到較好的結果，對公司來得更具建設性。

進行A/B Testing的整體流程思考

管道分析，是對產品初步的了解，這個部分可以從安裝追蹤碼開始。當然放置追蹤碼之前，你也許可以假裝自己是一個第一次接觸到自家品牌產品的使用者。如下圖所示，有可能你的臉書被廣告打到，或是你因為某種需求查詢而來的關鍵字，或是不小心在看一些部落客的分享文中。

接著，你有可能會去點擊首頁的說明，或是CTA（Call To Action）按鈕。當開始對某項服務感到興趣的時候，你可能會想要多了解一下產品的全貌。如果該服務有Blog的話，可能會去點擊，看看有沒有其他人使用這個產品的回饋，又或是如果有FB機器人的服務，點擊之後，與機器人互動看看，看能否找到自己需要的答案。

有些潛在客戶，可能做了以上的動作之後，都還是沒有購買。他可能會先註冊試用免費版的服務。過了一陣子，收到了公司發給他的優惠訊息，最後才變成客戶。這個過程短則 1~2 天，長則好幾個月。如何追蹤到這感興趣的潛在客群？A/B Testing 就適合在這個時候使用。

管道分析可以把它當做一個俯瞰的角度，了解潛在客戶從哪裡來？會前往哪些途徑？但如果單純只知道潛在客戶會往哪裡走，是無法和商業價值有所連結，所以要進一步做漏斗分析。所謂漏斗分析就如下圖所示：

在下面這個例子之中，是一個電商平台的例子，從圖中可以看到放入購物車的潛在客戶只有 46% 的人有前進到下一步驟，另外 54% 的人都離開了。開始填寫資料欄位之後，又有 44％的人會離開，所以到最後購買成功，只剩下全部的 26.26%。上面舉這個例子，可能就只是在你商城中其中一個管道，接下來要做的，就是針對每一個流失率高的漏斗，開始進行 A/B Testing的優化。

A/B Testing Crash Course for Product Managers 這門課中，建議我們先做用戶的分群，並且舉了 Udemy 想要關注的族群，包括：第一次進到 Udemy 的用戶與回頭客的比較、使用桌機進到網站者與手機版的用戶比較……將上面這些問題與 A/B Testing 可以進行測試的項目做結合，展開不同的實驗可能。

最後他們把重心放在，第一次進到 Udemy 網站的潛在客戶卻沒有註冊成為會員的這群人身上。

建立呼應問題的假設

既然已經決定想要測試的對象了，接下來我們就要開始學著問問題。「建立假設」其實就是一種問問題的方式。什麼是假設？簡單來說，假設是對於一個現象的出現有一個合理的解釋，但不知是否真的能完整去解釋這個現象。

比如說：牛頓被一個蘋果從蘋果樹上掉下來砸到，所以他假設有一股力量，可以將蘋果從樹上拉下來，接著他去做了很多實驗，發現不只是蘋果，其他的東西也都會掉下來，觀察了這些現象之後，他嘗試用數學的方式，建立一個模型，這也就是後來「萬有引力」的由來。

再舉一個例子，最近我在找日本東京旅遊的資訊，找了 Airbnb 的東京住宿地點後，再去開 instagram，馬上就有 Airbnb 的廣告等著我。可是當我已經用 booking.com 訂好飯店之後，我的 FB 上還是有 Airbnb 的廣告對我投放。原因就是廣告商抓到我想要去東京旅遊的意圖（在Airbnb網站上搜尋東京住宿地），所以它們假設我想要在 Airbnb 上訂房，但實際上我已經完成我在東京住宿的預訂。

廣告商假設，「你最近常在看東京旅遊的資訊，你會對 Airbnb 的廣告保持興趣」，但實際上我已經完成訂房了，像這樣的假設對我來說就是錯誤的，Airbnb 的廣告費用對我沒達到功效。

這邊提供一個假設的範例給大家參考：

我相信_________可以得到________的業績改善，因為這個方法_______

例：我相信「將使用者顧客的logo移到比較接近帳單的部分」可以「增加5%」的業績改善，因為這個方法「可以增加使用者在消費的信心」。

當然，想要增加到達頁面的轉換率，可能不只有一個假設。很多其他的假設都可能讓頁面的轉換率提昇。下一步，我們需要來排序，到底哪一個假設，比較值得進行實作驗證。至於排序的方式，可以參考下圖，針對每一個假設，給其特定分數，分別以「商業影響程度」，及「技術執行面執行容易」的程度思考執行面的難易度。排序完成之後，落在圖中右上角的項目將會是最需要排進實驗時程的項目。

根據先前假設，設計實驗

開始實驗之前，我們需要先知道幾個不同的實驗參數，分別是：

基準轉換率（Baseline conversion rate）
這是原本實驗前，目前網站的轉換率。

最小可辨識效果（Minimum Detectable Effect，MDE）
在實驗前，我們會先設定好多大的差異(Effect size)才算有意義，我們要知道實驗組和控制組有多少差異才叫做有效？

統計顯著性（Statistical significance）
統計顯著性是用來衡量實驗假說的效力，我們會需要設定實驗的顯著性，來判斷實驗結果是否有代表意義。（一般來說實驗假說的顯著性設在95%）

樣本數（Sample size）
樣本數大的實驗所獲得的結果，會相對較有說服力。

看完上面的定義，不知道怎麼去計算？還好你可以用下面這個連結，它會幫你計算，在控制實驗變因之下，需要多少的Sample 才夠。

我在上面這個網站的例子，設定一個 baseline conversion rate=20% 的例子，那如果我們的 MDE 是 5%，且 Statistical significance 是 95% 的話，那麼我們需要 25,000 的樣本數，才能得到有說服力的結果。通常 A/B Testing 都會做一段時間，如果你的網站平均每日流量大約在 10,000 人左右，將 25,000/10,000，你需要 2.5 天，才能得到足夠的樣本數。

分析數據，找出是否能驗證假設的解釋

等到數據都蒐集的差不多了，就要來看看數據到底能不能驗證我們的假設，是否正確。如下圖所示，這邊我們來看一個 A/B Testing 完成之後，看起來很有效果，但試過一段時間之後，控制組與實驗組成效漸漸接近的狀態。在 A/B Testing and Experimentation for Beginners 這門課中，老師告訴我們不要太急著下定論，可以注意下面兩個要點：

變化1（Variation 1）及變化2（Variation 2）與原始（Original）在 2009–12–14 到 2009-12–21 這一週看起來是有顯著的差別，但大約在 2010–01–01 之後，這三條線段幾乎都重疊在一起，如果太早把所有的網站流量都導到變化的設計，可能最終的結果不一定會理想。
有可能使用者對新的變化有反應，但部分的使用者在 2010–01 之後，已經熟悉了變化，他們之後再次到訪網站的時候，就不再進行購物的行為，導致轉換率趨於平緩。關於這點，我認為應該是這些變化都不是改善轉換率的關鍵點，可能要重新回到第二步進行 A/B Testing 的整體流程思考，回去審視，是否有哪些數據被遺漏掉，或是沒有發現到使用者的關鍵行為。

當然如果實驗出來的結果，有很顯著的差異，那麼盡早上線，將會是一個最好的選擇。

下次會更好

通常一次的 A/B Testing 不一定可以馬上看出成效。做完一次 A/B Testing 可能會有以下幾種結果：

正向的結果：假設正確，可以在數據上找到證明假設的證據。但老實說，這也不要高興得太早，原因是我看過很多文獻，很多改變都是在初期 2~4 週是有效的，但是當時間一拉長之後，原本新版改善的成效，會漸漸趨於頻緩。

看不太出來有什麼差：不要氣餒，這並不表示這次的實驗沒有用。可以看看漏斗中是否有些明顯的差距。如果還是沒有，表示這個假設並沒有完全找到值得測試的項目。

反面的結果：你的假設與實驗的數據相左，新的嘗試比原本的設計結果還要來得糟，確認一下實驗的樣本點是足夠的。如果確認之後，還是沒找到可疑之處。那就大方承認這次的結果並不符合預期。實際上，實驗本來就沒有一直成功的道理。重點是能夠在這次的實驗中，學習到什麼，才是最重要的！

除了 A/B Testing 這樣量化的分析之外，可能也要搭配一些問卷式的質化分析，詢問使用者「為何沒有做完成網站想要他們做的行為？」增加 A/B Testing 的完整性。

結論

整理完 Udemy 的兩堂課程，以及一些國外的文獻，我們可以發現，近期國外的趨勢，除了 A/B Testing 之外，更在乎的是進行一個完整的 UX 策略思考。它們會把使用者使用這個服務的完整過程都納入考量。A/B Testing 已經整合在最佳化轉化率（Conversion Rate Optimization）之中，要能從巨觀上結合商業思維，接著從細節中找到使用者真正在乎的痛點，如此，才能進一步地提升服務的品質。畢竟，A/B Testing 的另外一層意思就是 Always Be Testing 啊！

參考資料

你對 A/B Testing 的實際操作還有問題嗎？想要知道更多 A/B Testing 的操作細節？歡迎你 10/5（五）來參加由 UserXper 悠識數位主辦的「A/B Testing 數據分析與決策實務研討」，聽聽我與其他三位達人的分享！報名網址：https://edu.userxper.com/abtesting2018/

本文出處：如何做好A/B Testing？ — Always Be Testing

作者：張修齊（Jasper），目前擔任希平方技術長，帶領團隊運用機器學習及大數據分析，藉由學生學習行為等大數據，翻轉台灣英文教育。喜歡閱讀，鑽研互聯網產品設計，悠遊於英文學習行為大數據，歡迎追蹤，任何關於學習的想法都可以提出來一起切磋討論，想看更多內容也可以到下面這些地方逛逛！

Facebook https://www.facebook.com/JasperChang.Startup
攻其不背優惠序號 https://www.hopenglish.com/course/products/FXFHW
聯絡請至 threeche@gmail.com