近日,第32屆ACM國際多媒體會議在澳大利亞墨爾本落下帷幕。該會議由美國計算機學(xué)會(Association for Computing Machinery,簡稱ACM)主辦,同時其主辦?的視覺空間描述重大挑戰(zhàn)(Grand Challenge: Visual Spatial Description,簡稱VSD2024)公布競賽結(jié)果并頒發(fā)獲獎證書。?我院廣西電力裝備智能控制與運維重點實驗室高放教授帶領(lǐng)的GXU-LIPE團隊榮獲挑戰(zhàn)賽第四名,同時受邀撰寫論文并進行口頭報告。 所獲獎狀 ACM Multimedia是由美國計算機學(xué)會主辦的計算機視覺和多媒體處理領(lǐng)域的頂級國際會議,也是中國計算機學(xué)會推薦的該領(lǐng)域A類國際學(xué)術(shù)會議。每年大會特設(shè)主題挑戰(zhàn)競賽(Grand Challenges),遴選自全球相關(guān)領(lǐng)域的前沿主題。 VSD2024屬于視覺空間語義理解的研究領(lǐng)域。在該挑戰(zhàn)賽中,模型需要生成一個準(zhǔn)確的文本描述句子,來描述輸入圖像中兩個給定目標(biāo)對象之間的空間關(guān)系。主辦方提供了一個大規(guī)模的視覺空間描述數(shù)據(jù)集,包含29,272個高質(zhì)量手動標(biāo)注的圖像—文本對。 GXU-LIPE團隊由高放教授和課題組研究生王家寶、唐鏡峰組成。團隊受邀撰寫了論文《A Method for Visual Spatial Description Based on Large Language Model Fine-tuning》發(fā)表在第32屆ACM國際多媒體會議,并前往墨爾本進行口頭報告。 科研團隊在做報告 GXU-LIPE團隊設(shè)計了一種創(chuàng)新的基于大模型的方法,通過微調(diào)大語言模型FLANXXL提升了視覺空間關(guān)系描述的效果。首先通過預(yù)訓(xùn)練模型提取圖像特征和文本特征,然后采用Q-former進行特征融合,最終通過大語言模型輸出文本描述。為解決LLM特征捕獲困難的問題,將原始特征與融合后的特征一并輸入FLANXXL,并采用數(shù)據(jù)增強、先驗知識和多種訓(xùn)練策略等進行微調(diào),具體包括提升文本多樣性、引入對象重疊先驗、基于動量蒸餾篩選難負樣本及生成軟標(biāo)簽,基于權(quán)重平衡長尾數(shù)據(jù)等。通過多模態(tài)特征融合和微調(diào),模型在挑戰(zhàn)賽測試集上表現(xiàn)優(yōu)異,生成了準(zhǔn)確且更真實的對象空間關(guān)系描述文本。 概念圖 本次參加ACM MM會議由廣西大學(xué)“2024年研究生素質(zhì)能力提升項目”資助,為LIPE重點實驗室提供了寶貴的國際交流機會,提升在視覺語言處理、多模態(tài)融合、人工智能等領(lǐng)域的科研能力。王家寶同學(xué)表示,在多媒體處理和計算機視覺應(yīng)用的快速發(fā)展背景下,此次參會有助于深入了解國際領(lǐng)先的研究動向、結(jié)識領(lǐng)域?qū)<遥楹罄m(xù)課題研究提供創(chuàng)新靈感和新的合作機會。