【環球網科技報道 記者 林迪】特斯聯的首間人工智能開放創新中心(下稱:科創中心)于日前宣布在德陽AI PARK落地運營。據介紹,科創中心最核心的技術亮點,是解決前述問題而打造的弱監督大模型訓練體系及聯邦學習安全訓練體系。
具體來看,特斯聯科創中心致力于通過九章算法賦能平臺向不具備AI能力或弱AI能力的用戶提供AI算法孵化服務能力,因而弱化機器學習對標簽數據的依賴、弱化人工參與算法訓練為重中之重。目前針對計算機視覺、自然語言處理、推薦預測、知識圖譜四個方向共十三個細分項,特斯聯與學術生態及產業合作伙伴已展開深入合作,并打造了弱監督體系訓練平臺。其中,在計算機視覺領域,基于對比式自監督學習(Momentum Contrast,下稱:MoCo)框架,特斯聯構建了CV弱監督自訓練引擎,包括圖像分類、目標檢測、實例分割三個領域。
據特斯聯相關技術人員稱,在計算機視覺現有的弱監督學習框架中,由于memory bank思路易于實現,其應用最廣也最為成熟。然而這一思路也存在著明顯的缺點:首先,每一輪訓練需要對所有樣本特征進行存儲,其內存空間消耗巨大;此外,所有樣本特征僅在每輪訓練結束后方可更新,導致更新延遲,實驗效果并不理想。
為此,特斯聯研發團隊選擇采用MoCo系列自監督學習框架作為基礎學習框架進行優化,研發出了自訓練引擎及相關算法。
MoCo是一種在高維連續輸入中建立離散字典的方法,字典是動態的,鍵值(keys)是隨機采樣得到的,編碼器(key encoder)在訓練中進行更新。假設好的特征可以從包含大量負樣本的字典中學習而來,而編碼器能夠在更新中盡可能保持一致。在MoCo框架的訓練過程中,每一步訓練均會以“批次(batch)”為單位,將當前批次樣本特征更新至隊列,并將最舊的批次樣本特征從隊列剔除,實現動態存儲,將memory bank的樣本特征可存儲數量與批次大小(batch size)分離,提升訓練效率。
上述技術人員對記者表示,特斯聯CV弱監督自訓練引擎技術在傳統的MoCo系列自監督學習框架上,做出了五個方面的創新:一是特斯聯將MoCo中采用動量編碼器的方式改為指數加權移動平均(EMA)算法更新,各數值的加權影響力隨時間呈指數式遞減,時間越靠近當前時刻的數據加權影響力越大,以此來提高當前和較早期鍵值之間表示的一致性。二是將BYOL(由Google DeepMind提出的算法)中的非對稱編碼器、非對稱數據擴充、動量調度,與MoCo中的動量設計、鍵隊列、對比損失相互結合。三是吸納ReLIC自監督學習算法思想,將因果框架引入MoCo,通過因果不變性原理,在主流的InfoNCE損失函數上進行優化,顯性約束模型的學習目標,鼓勵模型學習到圖像中的核心內容。四是引入sum-tree數據結構代替隊列結構,實現高效的優先級存儲,完善“樣本特征淘汰機制”。五是將Transformer中的convolutional stem替換為patchify stem,在穩定訓練的同時提高訓練效率,降低超參數的影響。
其中,特斯聯的CV弱監督自訓練引擎在工業場景中的價值更加明顯。
眾所周知,在工業互聯網實踐中,大量工業算法的研發以缺陷檢查為目標。然而壞件本身是個小樣本事件,且壞件形態各異,因而在數據收集層面以及數據人工標注層面,使用標準的大量有標簽的壞件數據對檢測模型進行訓練,在產業中的實現難度極高。
特斯聯CV弱監督自訓練引擎及優化后的MoCo框架則可幫助廠家將此產業難題分解成多個簡單的子問題來解決。廠家可先從工業生產環境收集大量零件圖像樣本并對少量壞件數據進行標注,然后根據平臺提供的評估指標選定模型,即可在無需標注的情況下直接使用零件圖像樣本開啟訓練。
在開啟預訓練流程后,CV弱監督自訓練引擎首先會結合數據以及下游任務目標進行分析,為模型自構一個或多個自學習子任務,然后借助優化后的MoCo框架,幫助模型不斷學習和挖掘零件圖像樣本中的有效信息,例如正常零件紋路,正常零件外觀,正常零件隱性特征等等。完成預訓練流程后,引擎將進入下游任務訓練流程,配合半監督技術和少量壞件數據再次訓練。待訓練完成,即可得到最終的檢測模型,幫助廠家完成大規模缺陷檢查任務。
因此,CV弱監督自訓練引擎的應用可以充分利用現有的沉默數據,降低數據標注的人力成本及時間成本,而優化后的MoCo框架不僅僅提高了精度,也在一定程度上降低了計算資源的消耗,提升了計算的效率。
在特斯聯看來,降低機器學習過程中的人工參與,即可在一定程度上讓更大范圍的企業有機會參與到人工智能的研發當中,也推動AI向更為細分的領域滲透。
特斯聯創始人兼CEO艾渝對此表示:“就像是AI產業發展的木桶原理,如果細分市場的發展相對較慢,那么整個AI產業的推進也會有困難。我們希望通過科創中心以及特斯聯自身的技術專長,幫助中小微企業緩解AI研發中的問題,找到AI有效應用落地的路徑,也帶動整個AI產業,再向前走一步。”
關鍵詞: MoCo
責任編輯:Rex_07