我在這個領域中只能算是個萌新,所以對這些的看法還可能不是很成熟,請見諒。

依我看,“Visually Grounded Reasoning across Languages and Cultures“ 作為best long paper完美的突出了在我們自然語言處理這個領域裡其中的三項paradigm shift:一、多模態資訊對語言理解的重要性,二、現有資料中以西方國家為中心的偏見,和三、對精心data curation的重視。

一,在語言理解方面,我們從純屬語言資訊中能獲得的對世界的理解是有限的。我們作為人類之所以可以有效的理解語言資訊是因為我們在多模態自我經驗作為基礎上的泛化能力。舉個例子,我對一束花這個概念的理解不僅是因為我讀過講述花草的文章;它更多來源於因為我觸碰過它的花瓣,聞過它的花香,看過它在陽光之下的色彩,等等的這些經驗。當別人用語言,用這些描述一束花的詞來形容其他東西的時候,我也可以有效的利用這些多模態自我經驗去產生對新事物的理解。一個模型再怎麼讀過上億片文章,沒有這些多模態資訊,也還是會對事物概念的理解有所欠缺。就例如你試圖對一個盲人講述色彩的概念似的:儘管你用再多的語句去形容顏色是什麼,一個從未見過顏色的人真的能理解紅色,藍色,綠色的概念嗎?有些事情,純屬用語言來做是辦不到的;一是多模態研究可以增強我們現有模型對語言的理解,二是語言研究可以增強模型對別的模態(例如視覺)的理解。在這個方面上,我經常想到電影Good Will Hunting裡的一個經典片段:

電影《心靈捕手》經典片段_嗶哩嗶哩_bilibili

二,現有資料中以西方國家為中心的偏見是一個嚴重問題。不同文化對不同概念的理解是有所不同的,尤其在語言方面。例如,有些語言中的某些單詞在其他的語言中是沒有直接翻譯的。在研究中包含來自不同文化和不同國家的參與者一是可以更好的瞭解不同文化的思維方式,二是可以量化這些差異和增強現有人工智慧技術的accessibility,減少目前人工智慧技術裡存在的對部分人群的邊緣化現象。在這點上,很多研究組是不會去多考慮的。演算法進步雖說重要,但我們也不能盲目的去追求更高/更低的數字;人工智慧能對社會方面的貢獻也得多多考慮。

三,ImageNet雖說是一個開創性的資料庫,但它也存在著許多資料方面的偏見。這個可能是無法避免的,因為總是會有一個在資料集有多大和在資料集的策劃程度之間的權衡;畢竟man power也就這麼點啊,哈哈。你讓我一年內去手動分析標註上億個資料點我也沒辦法做到啊。在這個方面,這篇文章依我看找到了一個不錯的平衡,也突出了資料管理在減少偏見方面上的重要性。

總之,對這個領域以後的研究有很大的期盼哦~

順便,也趁此機會作為今年一個被選中EMNLP Outstanding Paper的共一作之一,自我宣傳一下hhh 歡迎來看我們“MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks“ 在11/7號的oral presentation,很期待與大家分享我們的工作~

MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks