精品国产乱码久久久久久影片,中日乱码高清字幕

近日，第32屆ACM國際多媒體會議在澳大利亞墨爾本落下帷幕。該會議由美國計算機學(xué)會（Association for Computing Machinery，簡稱ACM）主辦，同時其主辦?的視覺空間描述重大挑戰(zhàn)（Grand Challenge: Visual Spatial Description，簡稱VSD2024）公布競賽結(jié)果并頒發(fā)獲獎證書。?我院廣西電力裝備智能控制與運維重點實驗室高放教授帶領(lǐng)的GXU-LIPE團隊榮獲挑戰(zhàn)賽第四名，同時受邀撰寫論文并進行口頭報告。

所獲獎狀

ACM Multimedia是由美國計算機學(xué)會主辦的計算機視覺和多媒體處理領(lǐng)域的頂級國際會議，也是中國計算機學(xué)會推薦的該領(lǐng)域A類國際學(xué)術(shù)會議。每年大會特設(shè)主題挑戰(zhàn)競賽（Grand Challenges），遴選自全球相關(guān)領(lǐng)域的前沿主題。

VSD2024屬于視覺空間語義理解的研究領(lǐng)域。在該挑戰(zhàn)賽中，模型需要生成一個準(zhǔn)確的文本描述句子，來描述輸入圖像中兩個給定目標(biāo)對象之間的空間關(guān)系。主辦方提供了一個大規(guī)模的視覺空間描述數(shù)據(jù)集，包含29,272個高質(zhì)量手動標(biāo)注的圖像—文本對。

GXU-LIPE團隊由高放教授和課題組研究生王家寶、唐鏡峰組成。團隊受邀撰寫了論文《A Method for Visual Spatial Description Based on Large Language Model Fine-tuning》發(fā)表在第32屆ACM國際多媒體會議，并前往墨爾本進行口頭報告。

科研團隊在做報告

GXU-LIPE團隊設(shè)計了一種創(chuàng)新的基于大模型的方法，通過微調(diào)大語言模型FLANXXL提升了視覺空間關(guān)系描述的效果。首先通過預(yù)訓(xùn)練模型提取圖像特征和文本特征，然后采用Q-former進行特征融合，最終通過大語言模型輸出文本描述。為解決LLM特征捕獲困難的問題，將原始特征與融合后的特征一并輸入FLANXXL，并采用數(shù)據(jù)增強、先驗知識和多種訓(xùn)練策略等進行微調(diào)，具體包括提升文本多樣性、引入對象重疊先驗、基于動量蒸餾篩選難負樣本及生成軟標(biāo)簽，基于權(quán)重平衡長尾數(shù)據(jù)等。通過多模態(tài)特征融合和微調(diào)，模型在挑戰(zhàn)賽測試集上表現(xiàn)優(yōu)異，生成了準(zhǔn)確且更真實的對象空間關(guān)系描述文本。

概念圖

本次參加ACM MM會議由廣西大學(xué)“2024年研究生素質(zhì)能力提升項目”資助，為LIPE重點實驗室提供了寶貴的國際交流機會，提升在視覺語言處理、多模態(tài)融合、人工智能等領(lǐng)域的科研能力。王家寶同學(xué)表示，在多媒體處理和計算機視覺應(yīng)用的快速發(fā)展背景下，此次參會有助于深入了解國際領(lǐng)先的研究動向、結(jié)識領(lǐng)域?qū)＜遥楹罄m(xù)課題研究提供創(chuàng)新靈感和新的合作機會。

聯(lián)系我們