FLoC — Google 在保護用戶隱私與廣告利益之間,提出的解決方案之一
Google 的隱私沙盒專案 (Privacy Sandbox)
一般來說,當使用者瀏覽網站時,決定廣告如何呈現在使用者面前,主要可以分為三種方式:
- 將廣告放置在相關類型的網站中,例如將貓砂的廣告放在介紹寵物美容的部落格中。
- 針對有特定興趣的用戶投放廣告:例如針對喜歡寵物的用戶,投放貓砂的廣告。
- 根據用戶的特定行為做廣告投放:例如針對已將貓砂放進購物車的使用者,投放優惠訊息。
我們可以看到 (2) 和 (3) 兩種方式都是針對「用戶個人」的興趣或行為來做廣告投放,而以往用來做用戶識別並決定廣告投放的基礎,就是即將在未來被封鎖的第三方 cookie。在用戶隱私安全逐漸受到重視的未來,要如何在網站上對用戶投放數位廣告,變成了廣告主和廣告產業的所有公司在最近幾年不斷討論的課題。
因此,Google 在 2019 年 8 月發佈了名為「隱私沙盒 (Privacy Sandbox)」的專案,希望有辦法當第三方 cookie 消失之後,在用戶隱私和媒體的廣告利益之間,找到一個平衡的解決方案。隱私沙盒讓一般企業也可以提出他們的 proposal,例如法國的數位廣告公司 Criteo 在 2020 年 5 月提出的 SPARROW 專案,以及美國的 SSP 公司 Magnite 也在 2020 年底提出了 PARRROT。目前 Google 已宣布將會在 2021 年開始測試幾個提案,例如這篇文章要介紹的 FLoC 技術,就即將於三月開始做測試。
FLoC 技術將運用在上述的第二種廣告類型:是否要對用戶投放廣告,取決於用戶是否具有特定的興趣。
什麼是 FLoC?
FLoC 的全名是 Federated Learning of Cohorts,這是一個基於聯邦式學習 (Federated Learning) 架構,在不需要分享用戶個人數據與行為資料的前提下,模型也可以找出一群具有特定興趣的用戶,並對他們做廣告的投放。
我們可以用圖一來說明聯邦式學習的概念,可分為四個步驟:
- 每個參與端 (node) 利用自己收集的資料來訓練模型,訓練用的資料不會與其他的參與端共享,並將加密過後的結果上傳到中心模型
- 整合各個參與端上傳的結果並更新中心模型
- 將中心模型更新後的結果回傳給各個參與端
- 各個參與端更新各自的模型以及預測結果
聯邦式學習不是一個全新的概念,他最早在 2016 年由 Google 提出,應用在智慧手機端的預測,以及重視病患隱私資訊的醫療領域,一方面保護用戶個資,一方面將 AI 的研究,可以落地應用到實務的診斷上,也都達到不錯的效果。現在則是將這樣的架構運用在廣告投放上。
FLoC 在廣告中的應用
聯邦式學習如何應用在廣告中呢?FLoC 想要解決的問題是,當今天沒有第三方 cookie 之後,廣告主要如何針對有特定興趣的用戶投放廣告?這個問題是屬於我們第一段所列出的第二種廣告類型。當不同用戶造訪不同網站時,瀏覽器會根據用戶瀏覽的內容,將用戶分配到某個群組 (cohort)。背後的分配機制是透過 Google 所開發的 FLoC API。這邊值得一提的是 Google 選擇的 SimHash 演算法,這個演算法有幾個特色和優點:
- 每個使用者的 cohord id 是可以在裝置端被獨立計算出來,和其他用戶的資料不會共享。
- 有類似瀏覽紀錄的使用者,又很有可能會得到相同的 cohort id。也就是說,同一個 cohort 中的使用者,會有類似的興趣。
- 因此,不需要有一個中心化的伺服器來計算使用者的 cohort id
- 缺點是,每個 cohort 的大小無法事先決定。當 cohort 太小時可能就造成有隱私性的疑慮。不過這個問題好解決,透過增加一個伺服器來即時追蹤每個 cohort 的大小,當今天發現 cohort 太小時,API 可以拒絕來自瀏覽器的請求。讓使用者可以隱密的隱藏在一個群體之中。
- 另外還有其他優點例如比起複雜的機器學習模型,更為清楚易懂且很透明,不會放入一些特定的參數。要推行至整個廣告 ecosystem 也會相對容易。另外,所需的計算資源也低。
簡單來說,FLoC API 兼顧了三個重要的面向:
- 隱私性:演算法中引進了一個名為 k-anonymous 的參數,k 值代表同一個群體中的用戶數目,例如下圖範例的 k 值為 3。k 值越高,代表使用者可以隱密的隱藏在一個群體之中。
- 實用性:然而當 k 值很高時,儘管對用戶來說隱私性更好,但也代表同一個群體中的用戶越多,要用來做廣告個人化,成效可能也會越差
- 資料安全性:演算法的模型預測會在裝置端完成,用戶資料不會共享到中心的模型,可以更有效地保護用戶的資料。
如同圖二的範例:當今天有六個使用者,他們造訪兩個都跟寵物用品有關的網站,FLoC API 可將這六個用戶分成兩個群體,群體一是對貓有興趣的使用者,以 Sec-CH-Flock:A890
表示;群體二則是對狗有興趣的使用者,以 Sec-CH-Flock:R780
表示。
廣告主則可以選擇要針對哪一個群體的用戶呈現廣告。如下圖二所示,廣告主可以選擇要針對 Sec-CH-Flock:A890
的用戶打和貓相關的產品,當今天用戶 1 造訪新聞網站時,因為他已在上一步驟被 FLoC API 分配到 Sec-CH-Flock:A890
這個群體,所以就會看到和貓相關的廣告。
Google 也在 2021 年的 1 月底,公佈了用 FLoC 技術實驗的初步結果,與基於 cookie 為主的廣告技術相比,FLoC 可達到 95% 的效果。
市場對於 FLoC 的反應
在 Google 公布 FLoC 初步的結果之後,市場上的反應如何呢?這篇報導整理了多位廣告領域的專家對於 FLoC 的看法,大部分都是對 FLoC 可以達到的效果存疑,並且擔心這會更為鞏固 Google 在數位廣告的壟斷地位:
Myles Younger, MightyHive:
我對於 FLoC 技術可以達到這樣的結果並不特別意外…但我比較想問的是,Google 要如何把這個技術應用在 DSPs,ad servers,網站分析工具,以及媒體端等等。如果 Google 可以比較具體的告訴我們實際在廣告的生態圈,FLoC 技術將會如何運作,我們可以有個比較清晰的概念未來沒有 cookie 之後,數位廣告將如何透過這樣的技術運作。而我覺得離那樣的未來還有一大段的距離。
Zach Edwards, Victory Medium:
假設 FLoC 可以達到像 Google 宣稱的效果,但我看到的是,如果我們仍然是用相同的標準來衡量廣告的成效,代表至少成效會比現行的方式低 5%,對於廣告主來說,需要花更多的預算來達到類似現在的效果。
James Rosewell, Marketers for an Open Web 以及 51Degrees 的 CEO:
…英國的競爭和市場管理局 (Competition and Markets Authority,CMA) 正在對 Google 的隱私沙盒展開調查,開放網路的行銷人機構 (Marketers for an Open Web) 也要求 Google 公開他們測試的方式和邏輯,並會驗證這個結果是不是如 Google 所說這麼有效,並要求 Google 延後隱私沙盒中各項嘗試的上線時間…因為無論如何,這些技術都將讓 Google 在廣告產業中有更大的優勢,也讓他們的壟斷地位更為穩固。
Nicole Perrin, eMarketer:
…很期待看到當這些技術可以在今年被公開測試,這對於行銷人員以及整個廣告生態圈會更了解未來的可能性。
Sheri Bachstein, IBM Watson Advertising and The Weather Company:
…雖然同意 Google 對於尋求第三方 cookie 以外的解決方式的嘗試,但也擔心這會讓 Google 創造出僅屬於自己的生態圈 (the walls of this walled garden just grew higher)…另外,可達到 95% 效果的 FLoC API 也應該被更客觀地檢視。
尚待釐清的問題
在看完 FLoC 的相關文件,以及網路上的各方說法之後,我覺得目前有幾個問題還不是那麼清楚:
- 僅支援 Chrome 瀏覽器:FLoC 技術仰賴瀏覽器端的模型運算,這也就代表了瀏覽器必須要能夠支援使用 FLoC API,拿到用戶的 FLoC ID 後儲存下來供其他廣告平台使用。Chrome 目前全球市佔率約 63.38%,目前還不清楚其他瀏覽器如 Safari 與 Firefox 對這項技術的支持程度。如果未來只有 Chrome 瀏覽器支援的話,應該很難普及。
- 不適用於成效型廣告:FLoC 技術解決的,是用更具安全和隱私性的方式,針對以興趣為主的廣告投放方式所做的改善。這樣的廣告類型通常是針對品牌型廣告,而非成效型廣告。成效型廣告的進展需要關注隱私沙盒中的另一個 FLEDGE 專案。
- Attribution 將變得困難:FLoC 以及其他隱私沙盒中的專案的主要精神,就是無法再對單一用戶的行為或興趣做資料的收集。這也代表廣告的 attribution 將會變的困難,但目前似乎還沒有一個具體的解決方案,未來可能會透過還在測試中的 Click Through Attribution Reporting API 以及 Aggregated Reporting API。
- SSP,Ad Exchange,DSP 在這其中將扮演什麼角色:當未來所有的運算與預測都在瀏覽器端,而有哪些群體 (cohort) 可以拿來投放,也都掌握在 Google 手中,那為什麼還需要 SSP,Ad Exchange 及 DSP?這部分是我還不清楚的。我想這也是為什麼市場反應這將會讓 Google 在數位廣告的壟斷地位更為穩固的原因之一。
- 瀏覽器端的運算資源:當所有的運算都發生在瀏覽器端時,也代表將耗費更多瀏覽器的運算資源以及記憶體,不確定這會不會影響到用戶瀏覽網頁的體驗。而若降低分配到模型預測的資源,勢必會影響到預測的準確度,以及廣告的成效。這部分如何取捨也是還不清楚的部分。SimHash 相對應該是比較不需耗費過多的系統資源的演算法,這也是 Google 選擇他的原因之一。
其他相關文章:
參考資料
- Building a privacy-first future for web advertising
- Progress update on the Privacy Sandbox initiative
- Digging into the Privacy Sandbox
- Evaluation of Cohort Algorithms for the FLoC API
- Federated Learning of Cohorts (FLoC)
- How Google Chrome’s Privacy Sandbox Will Work + Possible Solutions for AdTech
- The Industry Reacts To Google’s Bold Claim That FLoCs Are 95% As Effective As Cookies
- Federated Machine Learning: Concept and Applications
- Federated Learning: Collaborative Machine Learning without Centralized Training Data
- Federated Learning of Cohorts — Google’s cookie killer
- Simhash and solving the hamming distance problem: explained