本文介紹一篇分割一切模型(Segment Anything, SAM模型)的最新工作,由魔芯科技,浙江大學,新加坡科技設計大學(SUTD),湖州大學等多單位合作完成。這項研究成果開辟了利用大型預訓練圖像模型在不同領域和工業應用中進行各種下游分割任務研究的新時代。它為研究人員和從業者提供了有價值的見解,展示了如何利用內部知識和外部控制信號來適應預訓練模型,以在具有挑戰性的任務中實現最先進的性能。這篇文章發表在國際計算機視覺領域權威期刊上,對于人工智能領域的研究人員和從業者來說是一篇不可錯過的重要論文。它提供了有價值的見解,展示了如何利用內部知識和外部控制信號來適應預訓練模型,以在具有挑戰性的任務中實現最先進的性能。此外,該研究成果還為醫學圖像處理、農業、遙感等領域的應用提供了新的思路和方法。 人工智能研究已經見證了一個由大規模海量數據上訓練的模型所帶來的范式上的轉變。這些模型,或稱為基礎模型,如BERT、DALL-E和GPT-3,已經在許多語言或視覺任務中顯示出有優秀的結果。 最近,在這些基礎模型中,Segment Anything(SAM)作為一個在大型視覺語料庫上訓練的通用圖像分割模型取得了顯著的突破。事實證明,SAM在不同的場景下具有成功的分割能力,這使得它在圖像分割和計算機視覺的相關領域邁出了突破性的一步。 然而,由于計算機視覺包含了廣泛的問題,SAM的不完整性是顯而易見的,這與其他基礎模型類似,因為訓練數據不能包含整個語料庫,工作場景也會有變化。在本研究中,作者首先在一些具有挑戰性的低層次結構分割任務中測試SAM,包括偽裝物體檢測(隱蔽場景)和陰影檢測,作者發現在一般圖像上訓練的SAM模型在這些情況下不能完美地 "分割任何東西",包括影子檢測、偽裝物體檢測等領域。 因此,一個關鍵的研究問題是:如何高效利用大型模型從大規模語料庫中獲得的能力,并利用它們使下游的任務受益? 在這項工作中,來自魔芯科技,浙江大學,新加坡科技設計大學等機構的研究者提出了SAM-adaptor,它是一個針對上述研究問題的優秀解決方案。這項開創性的工作首次嘗試將大型預訓練的圖像分割模型SAM適應于特定的下游任務,并提高其性能。正如其名,SAM-adaptor是一種非常簡單而有效的適應技術,可以同時利用來自大模型的內部知識和針對下游任務設定的外部控制信號。在該方法中,信息是通過視覺提示傳達給網絡的,這已被證明在用最少的額外可訓練參數將一個凍結的大基礎模型適應許多下游任務方面是高效和有效的。 圖:SAM-Adaptor 在偽裝物體檢測上的性能測試。 圖:SAM-Adaptor 在影子檢測上的性能測試。 這項工作率先證明了大規模海量數據訓練給SAM帶來的特殊能力,即以顯著的準確性轉移到其他特定數據領域的能力。作者在影子檢測、偽裝物體檢測等任務的數據集上實現了超過已有算法的高性能表現。雖然研究者只在幾個數據集上進行了測試,但他們相信SAM-adaptor可以作為一個有效的、可適應的工具,用于不同領域的各種下游分割任務,包括醫學和農業。這項研究將開創一個在不同研究領域和工業應用中利用大型預訓練圖像模型的新時代。 |