極客號(hào)(Daydx.com)12月19日 消息:谷歌AI研究團(tuán)隊(duì)與加州大學(xué)圣迭戈分校的研究人員合作,提出了一種名為PixelLLM的智能模型,旨在解決大型語(yǔ)言模型在細(xì)粒度定位和視覺(jué)-語(yǔ)言對(duì)齊方面的挑戰(zhàn)。這一模型的提出受到了人類(lèi)自然行為的啟發(fā),尤其是嬰兒描述其視覺(jué)環(huán)境的方式,包括手勢(shì)、指向和命名。
PixelLLM的獨(dú)特之處在于,它通過(guò)在語(yǔ)言模型的每個(gè)輸出單詞與像素位置之間建立密集對(duì)齊,成功地實(shí)現(xiàn)了對(duì)定位任務(wù)的精準(zhǔn)處理。為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)在單詞特征之上添加了一個(gè)微型多層感知器(MLP),使其能夠回歸到每個(gè)單詞的像素位置。低秩微調(diào)(LoRA)的使用使得語(yǔ)言模型的權(quán)重可以被更新或凍結(jié),同時(shí)模型還能夠接收文本或位置提示,以提供根據(jù)提示定制的輸出。
PixelLLM的整體架構(gòu)包括圖像編碼器、提示編碼器和提示特征提取器。大型語(yǔ)言模型被饋送以提示為條件的圖片特征和可選的文本提示,輸出形式為每個(gè)單詞的定位和字幕。該架構(gòu)具有輸入或輸出語(yǔ)言或位置的多樣性組合,對(duì)于各種視覺(jué)-語(yǔ)言活動(dòng)具有靈活性和適應(yīng)性。
研究團(tuán)隊(duì)對(duì)PixelLLM進(jìn)行了評(píng)估,應(yīng)用于密集目標(biāo)描述、位置條件描述和引用定位等視覺(jué)任務(wù)。令人矚目的性能指標(biāo)包括在RefCOCO引用定位上的89.8P@0.5,Visual Genome條件描述上的19.9CIDEr以及密集目標(biāo)描述上的17.0mAP。通過(guò)在RefCOCO上進(jìn)行的消融研究顯示,與其他定位公式相比,PixelLLM在密集像素定位公式上取得了3.7點(diǎn)的增益。
PixelLLM的主要貢獻(xiàn)總結(jié)如下:
1. 引入了一種新的視覺(jué)-語(yǔ)言模型PixelLLM,能夠生成單詞定位并生成圖片字幕。
2. 該模型支持文本或可選的位置提示,除了圖片輸入。
3. 使用本地化敘述數(shù)據(jù)集進(jìn)行每個(gè)單詞的本地化訓(xùn)練。
4. 該模型能夠適應(yīng)各種視覺(jué)-語(yǔ)言任務(wù),包括分割、位置條件字幕、引用定位和密集描述。
5. 在位置條件字幕、密集描述和引用定位與分割等方面,該模型展現(xiàn)出卓越的性能。
這一研究成果標(biāo)志著在大型語(yǔ)言模型領(lǐng)域取得的一項(xiàng)重要進(jìn)展,為實(shí)現(xiàn)更精確的視覺(jué)-語(yǔ)言對(duì)齊和定位打開(kāi)了新的可能性。
項(xiàng)目體驗(yàn)網(wǎng)址:https://top.aibase.com/tool/pixelllm
論文網(wǎng)址:https://arxiv.org/abs/2312.09237