如何做好A/B Testing? — Always Be Testing

1

文/張修齊

6/29 的時候,我在 Agile Summit 上分享了我們公司在 A/B Testing 的一個實戰經驗。演講後,得到許多朋友迴響,尤其是最近越來越多朋友在電商或是線上服務,發現數位廣告的轉換率越來越糟。大家都在尋找新的方法,希望可以讓潛在的用戶了解自家產品的好處,而不是片面地撒大把銀子打廣告。

A/B Testing,除了單純改改網站的按鈕顏色,或是文案及照片,更重要的是在實驗開始前,先了解自身公司的價值主張。這…聽起來距離公司行銷面有點遙遠?沒關係,這篇文章分享近期我收集到的課程及案例,把這些課程內容與自身的經驗做結合,分享給大家為什麼要進行 A/B Testing?以及要怎麼做 A/B Testing?

數位廣告轉換現狀

開始介紹 A/B Testing之前,我們先來看看數位通路導流的問題在哪裡?參考互聯網女王 2018 的趨勢報告,裡面提及,過去幾年廠商可以盡情地投放廣告,而不需要思考太多其他策略面的方法,原因是過去幾年的流量紅利包括了智慧型手機出貨量的增長,以及全球上網人數的普及。但是,如下圖所示,智慧型手機在 2016~2017 年的增長幾乎趨近於 0%。代表會買智慧型手機的人都已經買了。比較明顯的例子,是在台北搭捷運的時候,每個人手上都已經有一隻智慧型手機(除非你想要一邊追劇,一邊打手遊,這樣可能需要兩支。)

(圖片來源:https://www.digitaling.com/articles/46558.html

下面這張全球互聯網用戶的圖表,我們也可以看到用戶增長的比率也是漸漸下降,這代表什麼?代表會上網的人也大部分都在線上了。

(圖片來源:https://www.digitaling.com/articles/46558.html)

會買智慧型手機的人都買了,會上網的人也都在線上了,那這跟數位廣告導流轉換的關係是?

想一下,每個人每天手機上網時間的情境:可能是通勤,或是下班後無聊的時間。但每個人一天擁有的時間是固定的,不會因為多買一支手機就增加了時間,也就是說數位廣告的業主其實是在競價每個人的「時間」。

就我自己的觀察,在每個行業,新創小公司因為資金的關係,一開始不太有機會砸錢在電視廣告。原因是電視廣告的費用至少都是 10 萬起跳,還不一定保證效果!另一方面,數位廣告 — 像 Facebook 或是 Google Adwords,皆能直接安插追蹤碼在每一個消費者行為的路徑,可以很明確地知道,到底是哪一篇文章,或是哪一則廣告帶來了收益,這也造就了一波新型態電商崛起的優勢。

只是現在,連傳統的大公司也開始知道數位廣告的好處,當他們也一起跳進來搶食上網使用者注意力的時候,數位廣告的價格理所當然地就開始上揚。最明顯的例子就是今年跟幾位在電商工作的朋友說到,每次投放的 CPC 或是 CPA 價格是去年的翻倍,可是觸及率或是轉換率卻遠遠沒有以前的好。

從下圖,我們可以發現,過去幾年台灣的數位廣告量幾乎都有 20% 的成長,這也印證了有越來越多的廠商跳進來買數位廣告的趨勢。

(圖片來源:http://www.dma.org.tw/newsPost/275)

為何要進行A/B Testing?

當公司規模小的時候,產品的走向要往哪個方向走,其實很容易,「老闆說了算」(Hippo,Highest paid person’s opinion),主要就是老闆用他先前的經驗,讓目前的商業模式可以有正向的營業收入。

開始有了團隊之後,會有產品經理、設計師、工程師以及部門主管。另外,專案數量變多了,老闆不一定可以每件事情都顧到,此時每個人都有意見,聽起來又都很有道理,那該怎麼做決定?

A/B Testing,其實是一個幫助大家做決定的方法。先從一個比較巨觀的情境開始,幫助大家了解 A/B Testing。在 Forbes 這篇文章中,舉了一個花店的例子。會影響到使用者購買產品意願的可能,包括:

  • 產品的品質(Quality of the product)
  • 產品能否準時送達(Reliability and timeliness of delivery)
  • 運費(Shipping costs)
  • 「花束」本身的價錢(Bouquet pricing)

想像一下,你是這間花店的老闆,想要進行線上買賣,透過網頁讓你的消費者可以進行購買,你會怎麼進行假設?你會怎樣呈現你的網頁,直到你可以達到上面 4 個項目的為止?

  • 農場直送鮮花,品質看得見 — “Beautiful bouquets fresh from the farm”
    很直覺地聯想到,你可以安排農場採收的畫面,或是送貨的畫面,盡量把「直送」這個觀念傳達給使用者。
  • 保證在情人節當天可以送達 — “Guaranteed Valentine’s Day delivery”
    為了確保情人節當天可以送達,一種測試的方法,是一位女生在公司上班的時候,有一束花放在辦公桌旁邊,又或是單純以月曆和時鐘,呈現時間的感受。
  • 非常低的運費 — “Low, flat-fee shipping rates”
    可以直接標示出運費的價格、又或是比較眾多貨運公司的運費。
  • 價格合理 — “Flower arrangements starting from $35”
    比較與一般市面上花店的價格,可以用表格,或是直接秀出價格

假設上面是一個 Landing page,在開始建造網頁之前,花店的老闆已經有 4 個價值主張(value proposition)。實際上,要完成這些價值主張,有很多種不同的方法,我們不太可能一次就把 4 種不同的價值主張完全驗證完。比較可行的方法,就是先做出第一個版本,先確認好線上送花的這個行業是可行的。在這個先決條件成立的前提之下,我們就可以開始進一步,針對每個不同的價值主張進行 A/B Testing。

在進行 A/B Testing 時,還要先有一個心理建設,這些實驗及改變,除了能讓你在短時間看到某個按鈕好像改變後得到的成效之外,它也可以為你下一個檔期,需要曝光的行銷案,提供更明確的執行方向。

舉個例子來說:在上面第二個價值主張,是保證可以在情人節的時候把你的花送到對方手中。假設這個是使用者在乎的痛點,那麼「準時送達率」就會變成一個非常重要的 KPI(Key Performance Indicator)。可以觀察在一次的節日實驗中,收到多少通抱怨的客服電話,又或是當有人使用這個服務後,下次在節日的時候,再次使用這個服務的回購率是多少?上述兩點,都比單純在一次 的A/B Testing 得到較好的結果,對公司來得更具建設性。

進行A/B Testing的整體流程思考

管道分析,是對產品初步的了解,這個部分可以從安裝追蹤碼開始。當然放置追蹤碼之前,你也許可以假裝自己是一個第一次接觸到自家品牌產品的使用者。如下圖所示,有可能你的臉書被廣告打到,或是你因為某種需求查詢而來的關鍵字,或是不小心在看一些部落客的分享文中。

接著,你有可能會去點擊首頁的說明,或是CTA(Call To Action)按鈕。當開始對某項服務感到興趣的時候,你可能會想要多了解一下產品的全貌。如果該服務有Blog的話,可能會去點擊,看看有沒有其他人使用這個產品的回饋,又或是如果有FB機器人的服務,點擊之後,與機器人互動看看,看能否找到自己需要的答案。

有些潛在客戶,可能做了以上的動作之後,都還是沒有購買。他可能會先註冊試用免費版的服務。過了一陣子,收到了公司發給他的優惠訊息,最後才變成客戶。這個過程短則 1~2 天,長則好幾個月。如何追蹤到這感興趣的潛在客群?A/B Testing 就適合在這個時候使用。

▲客戶使用服務之管道分析

管道分析可以把它當做一個俯瞰的角度,了解潛在客戶從哪裡來?會前往哪些途徑?但如果單純只知道潛在客戶會往哪裡走,是無法和商業價值有所連結,所以要進一步做漏斗分析。所謂漏斗分析就如下圖所示:

在下面這個例子之中,是一個電商平台的例子,從圖中可以看到放入購物車的潛在客戶只有 46% 的人有前進到下一步驟,另外 54% 的人都離開了。開始填寫資料欄位之後,又有 44% 的人會離開,所以到最後購買成功,只剩下全部的 26.26%。上面舉這個例子,可能就只是在你商城中其中一個管道,接下來要做的,就是針對每一個流失率高的漏斗,開始進行 A/B Testing的優化。

(圖片來源:Analytics Ninja

A/B Testing Crash Course for Product Managers 這門課中,建議我們先做用戶的分群,並且舉了 Udemy 想要關注的族群,包括:第一次進到 Udemy 的用戶與回頭客的比較、使用桌機進到網站者與手機版的用戶比較……將上面這些問題與 A/B Testing 可以進行測試的項目做結合,展開不同的實驗可能。

最後他們把重心放在,第一次進到 Udemy 網站的潛在客戶卻沒有註冊成為會員的這群人身上。

建立呼應問題的假設

既然已經決定想要測試的對象了,接下來我們就要開始學著問問題。「建立假設」其實就是一種問問題的方式。什麼是假設?簡單來說,假設是對於一個現象的出現有一個合理的解釋,但不知是否真的能完整去解釋這個現象。

比如說:牛頓被一個蘋果從蘋果樹上掉下來砸到,所以他假設有一股力量,可以將蘋果從樹上拉下來,接著他去做了很多實驗,發現不只是蘋果,其他的東西也都會掉下來,觀察了這些現象之後,他嘗試用數學的方式,建立一個模型,這也就是後來「萬有引力」的由來。

再舉一個例子,最近我在找日本東京旅遊的資訊,找了 Airbnb 的東京住宿地點後,再去開 instagram,馬上就有 Airbnb 的廣告等著我。可是當我已經用 booking.com 訂好飯店之後,我的 FB 上還是有 Airbnb 的廣告對我投放。原因就是廣告商抓到我想要去東京旅遊的意圖(在Airbnb網站上搜尋東京住宿地),所以它們假設我想要在 Airbnb 上訂房,但實際上我已經完成我在東京住宿的預訂。

廣告商假設,「你最近常在看東京旅遊的資訊,你會對 Airbnb 的廣告保持興趣」,但實際上我已經完成訂房了,像這樣的假設對我來說就是錯誤的,Airbnb 的廣告費用對我沒達到功效。

這邊提供一個假設的範例給大家參考:

我相信_________可以得到________的業績改善,因為這個方法_______

例:我相信「將使用者顧客的logo移到比較接近帳單的部分」可以「增加5%」的業績改善,因為這個方法「可以增加使用者在消費的信心」。

當然,想要增加到達頁面的轉換率,可能不只有一個假設。很多其他的假設都可能讓頁面的轉換率提昇。下一步,我們需要來排序,到底哪一個假設,比較值得進行實作驗證。至於排序的方式,可以參考下圖,針對每一個假設,給其特定分數,分別以「商業影響程度」,及「技術執行面執行容易」的程度思考執行面的難易度。排序完成之後,落在圖中右上角的項目將會是最需要排進實驗時程的項目。

▲評估是否執行假設四象限圖

根據先前假設,設計實驗

開始實驗之前,我們需要先知道幾個不同的實驗參數,分別是:

基準轉換率(Baseline conversion rate)
這是原本實驗前,目前網站的轉換率。

最小可辨識效果(Minimum Detectable Effect,MDE)
在實驗前,我們會先設定好多大的差異(Effect size)才算有意義,我們要知道實驗組和控制組有多少差異才叫做有效?

統計顯著性(Statistical significance)
統計顯著性是用來衡量實驗假說的效力,我們會需要設定實驗的顯著性,來判斷實驗結果是否有代表意義。(一般來說實驗假說的顯著性設在95%)

樣本數(Sample size)
樣本數大的實驗所獲得的結果,會相對較有說服力。

看完上面的定義,不知道怎麼去計算?還好你可以用下面這個連結,它會幫你計算,在控制實驗變因之下,需要多少的Sample 才夠。

(圖片來源:Optimizely

我在上面這個網站的例子,設定一個 baseline conversion rate=20% 的例子,那如果我們的 MDE 是 5%,且 Statistical significance 是 95% 的話,那麼我們需要 25,000 的樣本數,才能得到有說服力的結果。通常 A/B Testing 都會做一段時間,如果你的網站平均每日流量大約在 10,000 人左右,將 25,000/10,000,你需要 2.5 天,才能得到足夠的樣本數。

分析數據,找出是否能驗證假設的解釋

等到數據都蒐集的差不多了,就要來看看數據到底能不能驗證我們的假設,是否正確。如下圖所示,這邊我們來看一個 A/B Testing 完成之後,看起來很有效果,但試過一段時間之後,控制組與實驗組成效漸漸接近的狀態。在 A/B Testing and Experimentation for Beginners 這門課中,老師告訴我們不要太急著下定論,可以注意下面兩個要點:

  1. 變化1(Variation 1)及變化2(Variation 2)與原始(Original)在 2009–12–14 到 2009-12–21 這一週看起來是有顯著的差別,但大約在 2010–01–01 之後,這三條線段幾乎都重疊在一起,如果太早把所有的網站流量都導到變化的設計,可能最終的結果不一定會理想。
  2. 有可能使用者對新的變化有反應,但部分的使用者在 2010–01 之後,已經熟悉了變化,他們之後再次到訪網站的時候,就不再進行購物的行為,導致轉換率趨於平緩。關於這點,我認為應該是這些變化都不是改善轉換率的關鍵點,可能要重新回到第二步進行 A/B Testing 的整體流程思考,回去審視,是否有哪些數據被遺漏掉,或是沒有發現到使用者的關鍵行為。
(圖片來源:Udemy

當然如果實驗出來的結果,有很顯著的差異,那麼盡早上線,將會是一個最好的選擇。

下次會更好

通常一次的 A/B Testing 不一定可以馬上看出成效。做完一次 A/B Testing 可能會有以下幾種結果:

正向的結果:假設正確,可以在數據上找到證明假設的證據。但老實說,這也不要高興得太早,原因是我看過很多文獻,很多改變都是在初期 2~4 週是有效的,但是當時間一拉長之後,原本新版改善的成效,會漸漸趨於頻緩。

看不太出來有什麼差:不要氣餒,這並不表示這次的實驗沒有用。可以看看漏斗中是否有些明顯的差距。如果還是沒有,表示這個假設並沒有完全找到值得測試的項目。

反面的結果:你的假設與實驗的數據相左,新的嘗試比原本的設計結果還要來得糟,確認一下實驗的樣本點是足夠的。如果確認之後,還是沒找到可疑之處。那就大方承認這次的結果並不符合預期。實際上,實驗本來就沒有一直成功的道理。重點是能夠在這次的實驗中,學習到什麼,才是最重要的!

除了 A/B Testing 這樣量化的分析之外,可能也要搭配一些問卷式的質化分析,詢問使用者「為何沒有做完成網站想要他們做的行為?」增加 A/B Testing 的完整性。

結論

整理完 Udemy 的兩堂課程,以及一些國外的文獻,我們可以發現,近期國外的趨勢,除了 A/B Testing 之外,更在乎的是進行一個完整的 UX 策略思考。它們會把使用者使用這個服務的完整過程都納入考量。A/B Testing 已經整合在最佳化轉化率(Conversion Rate Optimization)之中,要能從巨觀上結合商業思維,接著從細節中找到使用者真正在乎的痛點,如此,才能進一步地提升服務的品質。畢竟,A/B Testing 的另外一層意思就是 Always Be Testing 啊!

參考資料

你對 A/B Testing 的實際操作還有問題嗎?想要知道更多 A/B Testing 的操作細節?歡迎你 10/5(五)來參加由 UserXper 悠識數位主辦的「A/B Testing 數據分析與決策實務研討」,聽聽我與其他三位達人的分享!報名網址:https://edu.userxper.com/abtesting2018/

 

本文出處:如何做好A/B Testing? — Always Be Testing

作者:張修齊(Jasper),目前擔任希平方技術長,帶領團隊運用機器學習及大數據分析,藉由學生學習行為等大數據,翻轉台灣英文教育。喜歡閱讀,鑽研互聯網產品設計,悠遊於英文學習行為大數據,歡迎追蹤,任何關於學習的想法都可以提出來一起切磋討論,想看更多內容也可以到下面這些地方逛逛!

 

Share.

1 則留言

  1. 现在都在手机上买东西了,A/B Testing 不太有人用了,除非大改版了。手机上更关注功能场景化,结合埋点数据跟定性研究,找出用户痛点,提升黏性及转化率。

Reply To Lin Cancel Reply