目錄 多式聯運模式面臨哪些挑戰? 介紹 Google 的鎖定影像調整 (LiT) 方法 CLIP 的效能是否比鎖定影像調整方法更好? Google 的另一項進展:Pix2Seq – 用於物件偵測的新語言接口 Pix2Seq 和 LiT 對 SEO 世界意味著什麼? 多式聯運模式面臨哪些挑戰? 從網路上一次性獲得的圖片和文字描述的組合已被證明是人工智慧訓練的強大資源。我們已經見證了多模態搜尋的興起以及OpenAI CLIP和DALL-E等一些著名模型的崛起。這些訓練有素的自我監控人工智慧模型有一個很大的優勢:它們可以學習更強大的視覺類別表示,因為它們不必依賴人類定義的分類。簡單來說,這意味著這些模型無需額外的人工智慧訓練就能夠執行圖像分析任務。
然而,多模態模型面臨一些挑戰:它們是在使用 ImageNet 作為 丹麥 電話號碼 基準的圖像資料上進行訓練的,並且在某些特定和專業主題上表現不佳。這也反映在Google圖像搜尋中。當將 CLIP 與擴散模型結合使用以及在 Google 影像搜尋上時,可以發現類似的偏差。這就是我們研究和使用這些模型的原因,因為這有助於我們在多模式優先的世界中進行SEO(Google 正在以 MUM 為中心)。 介紹 Google 的鎖定影像調整 (Lit) 方法 谷歌的電腦科學家成功地創建了一種新的圖像分析方法,結合了兩個領域的優點:具有強大圖像分析功能的多模態模型,無需針對新任務進行重新訓練,又能達到專業模型的精度。這裡的區別在於 Google 的 LiT 僅訓練文字編碼器。

這與先前的多模態方法不同,在多模態方法中,圖像編碼器學習圖像表示,而文字編碼器學習對應文字的表示。 Google 正在透過 LiT 改變遊戲規則。他們正在處理一個預先訓練的模型,該模型使用三十億張圖像作為圖像編碼器。其工作原理是在多模態訓練過程中模型的參數被凍結。這種方法確保圖像編碼器及其學習的表示不會被修改。人工智慧團隊使用了Google前幾年收集的包含四十億張圖像和相關文字的私人資料集。 剪輯的效果是否比鎖定影像調整方法更好? 電腦視覺的行業基準通常是 ImageNet。使用這種新的 LiT 方法訓練的模型在 ImageNet 上達到了 84.5% 的準確率,同時在沒有額外訓練的情況下在 ObjectNet 基準測試中達到了 81.1% 的準確率。 值得注意的是,ImageNet 實現的最佳值約為 91%,而 CLIP 實現的最佳值約為 76%。