揭開YouTube推薦機制的面紗 如何萬中選一挑出你愛的片子

網路上有很多海量影音資訊平台,但觀眾能看到什麼內容,背後的「推薦機制」扮演重要角色。Google近年在人工智慧領域大出鋒頭,當然也將機器學習技術導入YouTube推薦機制中,到底產生了什麼效果,對我們看影片有什麼影響呢?Google台灣特地請來YouTube工程研發副總裁與技術總監,為大家說明原理與成果。

YouTube上累積了大量影音內容,而且每分鐘有超過500小時的影片正不斷被上傳,如何幫每個人找到他們想看的內容是一個棘手的問題,因此YouTube內部有個「搜尋與探索」團隊專門研究這件事,盡可能提升觀眾的參與及滿意度。

YouTube工程研發副總裁Cristos Goodrow就是負責搜尋與探索,他指出在2011至2012年間,YouTube做了一個關鍵性決策,就是將判斷影片是否受到歡迎的演算法,從「觀看次數(Views)」改為「觀看時間(Watchtime)」。雖然很多網站以觀看次數作為影片是否熱門的標準,但他們並不這麼認為。

舉例來說,一段廣告被看了5次,和一部電影被看了5次,雖然次數相同但意義是大不相同的。YouTube做了這樣的轉換之後,造成觀看次數在一天內驟降了20%,但觀看時間卻成功上升至有史以來第二高,平均觀看時間從120秒增加到140秒。

YouTube改變演算法後,「觀看次數」與「觀看時間」的變化
▲ YouTube改變演算法後,「觀看次數」與「觀看時間」的變化(圖/Matt Kan攝)

YouTube第二次發生的大改變是在2014至2015年間,這個時期已經有超過60%的YouTube觀看時間發生在行動裝置上,因此他們轉向行動優先的策略。他們優化了行動體驗(Better Mobile Signals),提供個人化首頁,在行動首頁增加「再看一次」區塊,透過Google Brain團隊導入機器學習技術,提升推薦機制的準確度。

2016年至今是第三次進化,YouTube積極提升使用者體驗,推出超過190個更新。包括重新設計行動版首頁,「即將播放」區塊與搜尋結果個人化等,目標是提升觀眾的滿意度與維持新鮮感。為了讓觀眾感到YouTube了解他們的喜好,隨時在YouTube上準備高達100小時觀眾感興趣的影音內容。

這些改變讓過去三年內,YouTube首頁推薦影片的觀看時間成長20倍,超過70%的觀看時間來自YouTube自動推薦的影片。目前YouTube首頁每日推薦高達2億支影片,涵蓋76種語言,每日觀看時數達10億小時。

TensorFlow是Google於2015年開源的機器學習基礎系統,過去兩年YouTube也將其運用到推薦機制中,YouTube技術總監Jim McFadden就是開發推薦機制的負責人。他提到將機器學習應用到影片推薦有三大挑戰:資料規模龐大、內容不斷更新、訓練資料中含有大量雜訊。

資料規模龐大:既有的演算法無法處理YouTube上如此大量的數據。
內容不斷更新:推薦機制必須對最新上傳的內容以及使用者最新採取的行為擁有相當的反應能力。同時,也必須平衡的對待新內容和舊內容,做出符合觀眾的推薦。
訓練資料含有大量雜訊:機器學習需要資料來訓練,但要預測用戶過去的觀看行為有難度,很難判定什麼才是對用戶重要的。

為了解決這些問題,他們採用由兩個神經網絡結合而成的推薦模型架構:候選生成模型(Candidate Generation Model),以及排名模型(Ranking Model)。

候選生成模型:目標是將數百萬個影音資料,縮小分成許多數百個與使用者相關的資料子集合。考慮的變項包括:瀏覽歷史、搜尋歷史、人口資訊等。
排名模型:針對第一個模型過濾出的結果,再以提名特徵(Nominating
features)來下評分訊號的權重(Scoring Signals),將影音資料第二次過濾至剩下數十個,最後推薦給用戶。這些用來評分、排名、歸類的特徵有人口統計資訊、最受歡迎的影音、用戶和影片所使用的語言、近期觀看紀錄、使用者和該影音頻道的過往連結等。

YouTube採用由兩個神經網絡結合而成的推薦模型架構
▲ YouTube採用由兩個神經網絡結合而成的推薦模型架構(圖/Matt Kan攝)
機器學習用來評分影片的各種特徵
▲ 機器學習用來評分影片的各種特徵(圖/Matt Kan攝)

導入機器學習後的成效如何呢?以過濾「恐怖主義和暴力極端主義內容」為例,過去YouTube是依賴用戶主動檢舉不當內容,再由YouTube小組進行審核,移除違反社群規範的內容,或是加上年齡限制等。YouTube從今年六月開始改用機器學習處理,到九月的數據顯示,有超過八成的違規影片在還沒被檢舉前就已經移除,相較八月效果提升了8%。

YouTube大中華與紐澳技術管理負責人葉佳威補充說明,為了減少誤判發生,YouTube小組審核超過100萬部的影片,作為訓練機器學習用的資料,以求效果最佳化。然而機器學習技術尚未能達到100%準確,建議創作者還是要為影片加入背景資訊,以免遭到誤判。

另外,機器學習也還不能辨識影片中人物的「行為」,例如可以知道影片中有人,但無法辨識這個人是在跳舞還是打球。為了讓機器學習有認知人類動作的能力,Google發表了「原子視覺化動作數據學習模式(Atomic Visual Actions, AVA)」。

他們首先針對影片中的「人物」下標籤,以區別在相同場景中,多人所做的各種不同動作。這些動作標籤限制在長度3秒的範圍內,就稱為原子視覺動作。AVA再將人的互動行為分成三大類:姿勢或移動時的動作表現(pose/movement actions)、人與物品互動行為(person-object
interactions)、以及人與人互動行為(person-person interactions)。搭配事先定義好的80組原子動作:走路、踢球、握手等,就能為影片中的行為進行註解。

透過AVA分析YouTube上的大量資料後,可以觀察到某些動作標籤常常一起出現。例如唱歌這個動作常常跟樂器一起出現,和小孩玩常常與舉起來一起出現,親吻常常與擁抱一起出現,顯示結果與人們的日常行為的確有所符合。

透過AVA觀察到最常同時發生的動作標籤組合
▲ 透過AVA觀察到最常同時發生的動作標籤組合(圖/Matt Kan攝)

不過葉佳威表示,即便做到現在的成果,機器學習能辨識出的人類行為還是很有限。如果創作者希望自己的影片能容易被推薦,最好還是自己先為影片下標籤,跨出第一步,後續才能讓機器學習有跡可循。

從另一個角度來思考,如果在YouTube上看到的內容都是根據觀眾喜好而推薦,會不會造成資訊吸收不均衡的情況呢?葉佳威表示突破「同溫層」這件事,也是各家內容平台正在研究的課題之一,的確會有這種疑慮。如果不希望自己的觀影內容被機器學習影響的話,只要用瀏覽器的無痕視窗、私密模式等來看影片,不要被YouTube認出是誰就行了。

史塔夫短評:個人觀影喜好也是隱私,不小心被看到也是很糗的。