FLoC — Google 在保護用戶隱私與廣告利益之間,提出的解決方案之一

TengYuan Chang
11 min readFeb 28, 2021
圖片來源

Google 的隱私沙盒專案 (Privacy Sandbox)

一般來說,當使用者瀏覽網站時,決定廣告如何呈現在使用者面前,主要可以分為三種方式:

  1. 將廣告放置在相關類型的網站中,例如將貓砂的廣告放在介紹寵物美容的部落格中。
  2. 針對有特定興趣的用戶投放廣告:例如針對喜歡寵物的用戶,投放貓砂的廣告。
  3. 根據用戶的特定行為做廣告投放:例如針對已將貓砂放進購物車的使用者,投放優惠訊息。

我們可以看到 (2) 和 (3) 兩種方式都是針對「用戶個人」的興趣或行為來做廣告投放,而以往用來做用戶識別並決定廣告投放的基礎,就是即將在未來被封鎖的第三方 cookie。在用戶隱私安全逐漸受到重視的未來,要如何在網站上對用戶投放數位廣告,變成了廣告主和廣告產業的所有公司在最近幾年不斷討論的課題

因此,Google 在 2019 年 8 月發佈了名為「隱私沙盒 (Privacy Sandbox)」的專案,希望有辦法當第三方 cookie 消失之後,在用戶隱私和媒體的廣告利益之間,找到一個平衡的解決方案。隱私沙盒讓一般企業也可以提出他們的 proposal,例如法國的數位廣告公司 Criteo 在 2020 年 5 月提出的 SPARROW 專案,以及美國的 SSP 公司 Magnite 也在 2020 年底提出了 PARRROT。目前 Google 已宣布將會在 2021 年開始測試幾個提案,例如這篇文章要介紹的 FLoC 技術,就即將於三月開始做測試

FLoC 技術將運用在上述的第二種廣告類型:是否要對用戶投放廣告,取決於用戶是否具有特定的興趣。

什麼是 FLoC?

FLoC 的全名是 Federated Learning of Cohorts,這是一個基於聯邦式學習 (Federated Learning) 架構,在不需要分享用戶個人數據與行為資料的前提下,模型也可以找出一群具有特定興趣的用戶,並對他們做廣告的投放。

我們可以用圖一來說明聯邦式學習的概念,可分為四個步驟:

  1. 每個參與端 (node) 利用自己收集的資料來訓練模型,訓練用的資料不會與其他的參與端共享,並將加密過後的結果上傳到中心模型
  2. 整合各個參與端上傳的結果並更新中心模型
  3. 將中心模型更新後的結果回傳給各個參與端
  4. 各個參與端更新各自的模型以及預測結果
圖一、圖示聯邦學習的幾個步驟。參考論文:Federated Machine Learning: Concept and Applications

聯邦式學習不是一個全新的概念,他最早在 2016 年由 Google 提出,應用在智慧手機端的預測,以及重視病患隱私資訊的醫療領域,一方面保護用戶個資,一方面將 AI 的研究,可以落地應用到實務的診斷上,也都達到不錯的效果。現在則是將這樣的架構運用在廣告投放上。

FLoC 在廣告中的應用

聯邦式學習如何應用在廣告中呢?FLoC 想要解決的問題是,當今天沒有第三方 cookie 之後,廣告主要如何針對有特定興趣的用戶投放廣告?這個問題是屬於我們第一段所列出的第二種廣告類型。當不同用戶造訪不同網站時,瀏覽器會根據用戶瀏覽的內容,將用戶分配到某個群組 (cohort)。背後的分配機制是透過 Google 所開發的 FLoC API。這邊值得一提的是 Google 選擇的 SimHash 演算法,這個演算法有幾個特色和優點:

  • 每個使用者的 cohord id 是可以在裝置端被獨立計算出來,和其他用戶的資料不會共享。
  • 有類似瀏覽紀錄的使用者,又很有可能會得到相同的 cohort id。也就是說,同一個 cohort 中的使用者,會有類似的興趣。
  • 因此,不需要有一個中心化的伺服器來計算使用者的 cohort id
  • 缺點是,每個 cohort 的大小無法事先決定。當 cohort 太小時可能就造成有隱私性的疑慮。不過這個問題好解決,透過增加一個伺服器來即時追蹤每個 cohort 的大小,當今天發現 cohort 太小時,API 可以拒絕來自瀏覽器的請求。讓使用者可以隱密的隱藏在一個群體之中。
  • 另外還有其他優點例如比起複雜的機器學習模型,更為清楚易懂且很透明,不會放入一些特定的參數。要推行至整個廣告 ecosystem 也會相對容易。另外,所需的計算資源也低。

簡單來說,FLoC API 兼顧了三個重要的面向:

  1. 隱私性:演算法中引進了一個名為 k-anonymous 的參數,k 值代表同一個群體中的用戶數目,例如下圖範例的 k 值為 3。k 值越高,代表使用者可以隱密的隱藏在一個群體之中。
  2. 實用性:然而當 k 值很高時,儘管對用戶來說隱私性更好,但也代表同一個群體中的用戶越多,要用來做廣告個人化,成效可能也會越差
  3. 資料安全性:演算法的模型預測會在裝置端完成,用戶資料不會共享到中心的模型,可以更有效地保護用戶的資料。

如同圖二的範例:當今天有六個使用者,他們造訪兩個都跟寵物用品有關的網站,FLoC API 可將這六個用戶分成兩個群體,群體一是對貓有興趣的使用者,以 Sec-CH-Flock:A890 表示;群體二則是對狗有興趣的使用者,以 Sec-CH-Flock:R780 表示。

圖二、在裝置端透過 FLoC API 將用戶做分群。參考資料:FLoC whitepaper

廣告主則可以選擇要針對哪一個群體的用戶呈現廣告。如下圖二所示,廣告主可以選擇要針對 Sec-CH-Flock:A890 的用戶打和貓相關的產品,當今天用戶 1 造訪新聞網站時,因為他已在上一步驟被 FLoC API 分配到 Sec-CH-Flock:A890 這個群體,所以就會看到和貓相關的廣告。

圖三、根據用戶屬於哪一個興趣 cohort 來呈現廣告。參考資料

Google 也在 2021 年的 1 月底,公佈了用 FLoC 技術實驗的初步結果,與基於 cookie 為主的廣告技術相比,FLoC 可達到 95% 的效果。

市場對於 FLoC 的反應

在 Google 公布 FLoC 初步的結果之後,市場上的反應如何呢?這篇報導整理了多位廣告領域的專家對於 FLoC 的看法,大部分都是對 FLoC 可以達到的效果存疑,並且擔心這會更為鞏固 Google 在數位廣告的壟斷地位:

Myles Younger, MightyHive:

我對於 FLoC 技術可以達到這樣的結果並不特別意外…但我比較想問的是,Google 要如何把這個技術應用在 DSPs,ad servers,網站分析工具,以及媒體端等等。如果 Google 可以比較具體的告訴我們實際在廣告的生態圈,FLoC 技術將會如何運作,我們可以有個比較清晰的概念未來沒有 cookie 之後,數位廣告將如何透過這樣的技術運作。而我覺得離那樣的未來還有一大段的距離。

Zach Edwards, Victory Medium:

假設 FLoC 可以達到像 Google 宣稱的效果,但我看到的是,如果我們仍然是用相同的標準來衡量廣告的成效,代表至少成效會比現行的方式低 5%,對於廣告主來說,需要花更多的預算來達到類似現在的效果。

James Rosewell, Marketers for an Open Web 以及 51Degrees 的 CEO:

…英國的競爭和市場管理局 (Competition and Markets Authority,CMA) 正在對 Google 的隱私沙盒展開調查,開放網路的行銷人機構 (Marketers for an Open Web) 也要求 Google 公開他們測試的方式和邏輯,並會驗證這個結果是不是如 Google 所說這麼有效,並要求 Google 延後隱私沙盒中各項嘗試的上線時間…因為無論如何,這些技術都將讓 Google 在廣告產業中有更大的優勢,也讓他們的壟斷地位更為穩固。

Nicole Perrin, eMarketer:

…很期待看到當這些技術可以在今年被公開測試,這對於行銷人員以及整個廣告生態圈會更了解未來的可能性。

Sheri Bachstein, IBM Watson Advertising and The Weather Company:

…雖然同意 Google 對於尋求第三方 cookie 以外的解決方式的嘗試,但也擔心這會讓 Google 創造出僅屬於自己的生態圈 (the walls of this walled garden just grew higher)…另外,可達到 95% 效果的 FLoC API 也應該被更客觀地檢視。

尚待釐清的問題

在看完 FLoC 的相關文件,以及網路上的各方說法之後,我覺得目前有幾個問題還不是那麼清楚:

  1. 僅支援 Chrome 瀏覽器:FLoC 技術仰賴瀏覽器端的模型運算,這也就代表了瀏覽器必須要能夠支援使用 FLoC API,拿到用戶的 FLoC ID 後儲存下來供其他廣告平台使用。Chrome 目前全球市佔率約 63.38%,目前還不清楚其他瀏覽器如 Safari 與 Firefox 對這項技術的支持程度。如果未來只有 Chrome 瀏覽器支援的話,應該很難普及。
  2. 不適用於成效型廣告:FLoC 技術解決的,是用更具安全和隱私性的方式,針對以興趣為主的廣告投放方式所做的改善。這樣的廣告類型通常是針對品牌型廣告,而非成效型廣告。成效型廣告的進展需要關注隱私沙盒中的另一個 FLEDGE 專案
  3. Attribution 將變得困難:FLoC 以及其他隱私沙盒中的專案的主要精神,就是無法再對單一用戶的行為或興趣做資料的收集。這也代表廣告的 attribution 將會變的困難,但目前似乎還沒有一個具體的解決方案,未來可能會透過還在測試中的 Click Through Attribution Reporting API 以及 Aggregated Reporting API
  4. SSP,Ad Exchange,DSP 在這其中將扮演什麼角色:當未來所有的運算與預測都在瀏覽器端,而有哪些群體 (cohort) 可以拿來投放,也都掌握在 Google 手中,那為什麼還需要 SSP,Ad Exchange 及 DSP?這部分是我還不清楚的。我想這也是為什麼市場反應這將會讓 Google 在數位廣告的壟斷地位更為穩固的原因之一。
  5. 瀏覽器端的運算資源:當所有的運算都發生在瀏覽器端時,也代表將耗費更多瀏覽器的運算資源以及記憶體,不確定這會不會影響到用戶瀏覽網頁的體驗。而若降低分配到模型預測的資源,勢必會影響到預測的準確度,以及廣告的成效。這部分如何取捨也是還不清楚的部分。SimHash 相對應該是比較不需耗費過多的系統資源的演算法,這也是 Google 選擇他的原因之一。

其他相關文章:

參考資料

  1. Building a privacy-first future for web advertising
  2. Progress update on the Privacy Sandbox initiative
  3. Digging into the Privacy Sandbox
  4. Evaluation of Cohort Algorithms for the FLoC API
  5. Federated Learning of Cohorts (FLoC)
  6. How Google Chrome’s Privacy Sandbox Will Work + Possible Solutions for AdTech
  7. The Industry Reacts To Google’s Bold Claim That FLoCs Are 95% As Effective As Cookies
  8. Federated Machine Learning: Concept and Applications
  9. Federated Learning: Collaborative Machine Learning without Centralized Training Data
  10. Federated Learning of Cohorts — Google’s cookie killer
  11. Simhash and solving the hamming distance problem: explained

--

--