Meta 歡慶 AI 研究團隊（Fundamental AI Research, FAIR）成立十週年

【2023 年 12 月 1 日】長期以來，Meta 秉持開放且負責的態度，持續推動 AI 技術的發展，分享各類論文、程式碼、模型等內容。今日，Meta 歡慶其基礎 AI 研究團隊（FAIR）成立十週年，並公布於 AI 領域的最新突破，包含兼具第一人稱及外部視角的 AI 模型 Ego-Exo4D、語音生成模型 Audiobox，以及翻譯模型 Seamless Communication。

過去十年中，Meta 於各類 AI 領域取得重大進展：研發出可辨識圖像中個別單一物體的 Segment Anything 技術、建立在不仰賴英文的前提下翻譯 100 種語言的 NLLB （No Language Left Behind 絕不拋下任何語言）模型，且近期將「文字轉語音」及「語音轉文字」技術擴展至逾 1,000 種語言、發布開放且可預先訓練的大型語言模型 Llama 後，接著推出可供免費用於研究與商用的 Llama 2 ，以及在 Connect 大會上，介紹已開放給數百萬大眾使用的全新 AI 產品與體驗。以下將分享 Meta 基礎 AI 研究團隊的最新進展。

Table of Contents

賦予 AI 第一人稱與外部的雙重視角

為教導 AI 模擬以人類的視角辨識事物，Meta 改良 Ego-Exo 技術，研發出可同時捕捉穿戴者第一人稱（以主角為自我中心）視角，及穿戴者四周的外部（旁觀的、非以主角為自我中心的）視角的 Ego-Exo4D 技術，在兩個視角的結合下，AI 模型能透過更完整的環境資訊，充分理解人類的所見所聞。未來，這項 AI 創新技術可結合智慧眼鏡，讓虛擬 AI 教練透過教學影片，引導觀看者快速學習新技能，像是觀看技術人員修理機器的操作過程，並將指導步驟與自身動作進行比對。

Audiobox 助力生成語音及音效

年初，Meta 發布生成式 AI 模型 Voicebox，協助語音編輯、樣本採集及語音風格塑造，而更新版的 Audiobox 進一步升級生成式 AI 技術，使用者可藉由語音指令或文字說明描述欲生成的聲音或語音類型，例如：利用文字「潺潺的溪水與鳥鳴」即可建立配樂、以口頭描述「一名年輕女性以高音及快速的語調說話」來產出語音，讓客製化音訊的打造更加輕鬆。

解鎖無隔閡語言翻譯

以 SeamlessM4T 技術為基礎，新推出的翻譯模型 Seamless Communication 在跨語言表現上更忠實地呈現原意，並能達到同步翻譯的效果。既有的翻譯服務往往難以捕捉協助人們傳達目的與情緒的重要訊號，如語調、停頓與抑揚頓挫等，SeamlessExpressive 是第一個開放且可生動地跨語言溝通的系統，模型將保留講者的情緒與風格，並分析說話速度及節奏，目前支援英文、西班牙文、德文、法文、義大利文及中文；不同於傳統的逐句翻譯，SeamlessStreaming 功能則可更即時、高效地翻譯，在講者說話時即時翻譯，使資訊傳達更有效率。

Meta 具備獨特的優勢以迎擊 AI 領域的艱鉅挑戰，透過在軟硬體與基礎設施架構上投注的大量心力，並從中擷取研究知識應用於產品中，以造福數十億人類。基礎 AI 研究團隊（FAIR）是 Meta 成功的關鍵，也是世上少數具備所有突破性成功要素的團隊，集結業界一流人才、擁有開放式文化，更重要的是具備探索性研究的自由，使他們能以靈活的姿態，為構建社會連結的未來貢獻心力。