EMNLP 2022 (The 2022 Conference on Empirical Methods in Natural Language Processing)是復旦自然語言處理領域的頂級國際會議,由國際語言學會SIGDAT小組在世界范圍內每年召開一次。大學隊篇在本次會議中,計算機科復旦大學自然語言處理實驗室FudanNLP共計14篇長文被錄用,學技其中包括9篇主會文章和5篇Findings文章。術學2022年冬季,院自言處研團EMNLP 2022將以混合形式在阿聯酋阿布扎比(Abu Dhabi)舉行,然語所有參與者都可以在會場現場或虛擬加入。理科錄用
9篇主會文章簡介
1. ProofInfer: Generating Proof via Iterative Hierarchical Inference
作者:費子楚,長文張奇,復旦周鑫,大學隊篇桂韜,計算機科黃萱菁
文章針對證明樹生成任務提出一個通過迭代層次推理生成證明樹的學技模型并采用分治算法,將證明樹遞歸地編碼為純文本,術學同時預測層中的院自言處研團所有節點且不會丟失結構信息。
2、Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence Embedding
作者:高頌楊,竇士涵,張奇,黃萱菁
文章針對數據集偏差問題引入兩種去偏差方法。一是表示標準化,消除編碼句子的特征之間的相關性,另一個是 ”核白化”方法來實現對非線性虛假相關性更徹底的去偏。實驗表明,該方法在時間和效果上都有不錯的提升。
3、ReLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees
作者:劉騰霄,郭琦鵬,胡祥坤,張岳,邱錫鵬,張崢
文章首次將強化學習方法引入蘊涵樹生成任務,提出一種基于強化學習的蘊涵樹生成框架,利用整個樹的累積信號進行訓練。它使用句子選擇和結論生成兩個模塊迭代地執行單步推理,使用與評估方法一致的獎勵函數進行訓練信號的累積。
4、CodeRetriever: A Large Scale Contrastive Pre-Training Method for Code Search
作者:李孝男,宮葉云,諶葉龍,邱錫鵬,張航,要博倫,齊煒禎,姜大昕,陳偉柱,段楠
文章針對代碼文本對的構建任務提出了單模態和雙模態的對比學習策略。對于單模態的對比學習,以無監督的方式根據代碼中的自然語言信息,來構建具有相似功能的代碼對。對于雙模態的對比學習,則利用代碼的文檔和存在于代碼中的零散注釋來構建代碼文本對。
5、BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation
作者:孫天祥*,何俊亮*,邱錫鵬,黃萱菁
文章研究了生成文本質量的自動化評測指標存在的公平性隱患。這種評測的不公平性會在模型選擇的過程中鼓勵富有偏見的生成系統,進一步加深模型及其生成數據的社會偏見。
6、BBTv2: Towards a Gradient-Free Future with Large Language Models
作者:孫天祥,賀正夫,錢鴻,周云華,黃萱菁,邱錫鵬
文章在Black-Box Tuning的基礎上提出了BBTv2,使用深層prompt代替原有的輸入層prompt,并提出一種基于分治的無梯度優化方法對其進行交替優化,在多個少樣本學習任務上僅優化千分之三的參數取得了和全參數微調相仿的性能。
7、Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer?
作者:徐凝雨,桂韜,馬若恬,張奇,葉婧婷,張夢翰,黃萱菁
文章研究了多語言 BERT的遷移過程,證明了不同語言分布之間的距離與語言間的形式句法差異高度一致。多語言 BERT學習得到的語言間句法結構的差異對零樣本遷移效果有著決定性的影響,并可以利用語言間的形態句法屬性差異進行預測。
8、Efficient Adversarial Training with Robust Early-Bird Tickets
作者:奚志恒*,鄭銳*,桂韜,張奇,黃萱菁
文章提取出結構化稀疏的魯棒早鳥彩票(即子網絡)并設置一個彩票收斂指標來實現一種高效的對抗訓練方法,從而提升預訓練語言模型魯棒性。
9、TextFusion: Privacy-Preserving Pre-trained Model Inference via Token Fusion
作者:周鑫,陸勁竹,桂韜,馬若恬,費子楚,王宇然,丁勇, 張軼博,張奇,黃萱菁
文章提出了一種保存端云協同推理階段隱私的新方法。它包含一個融合預測器來動態地融合詞表示,將多個可能含有隱私的詞表示融合為一個難以識別的詞表示。此外,文章采用了一種誤導性的訓練方案來使這些表示進一步被干擾。
5篇Findings文章簡介
1、Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with User Simulator
作者:程沁源*,李林陽*,權國風,高峰,牟曉峰,邱錫鵬
文章提出了一個用于TOD的交互式評測框架:首先基于預訓練模型構建了一個面向用戶目標的用戶模擬器,然后使用用戶模擬器與對話系統交互以生成對話,并在交互式評測中引入了句子級和會話級分數來衡量對話的流暢度和連貫性。
2、DORE: Document Ordered Relation Extraction based on Generative Framework
作者:郭琦鵬*,楊雨晴*,顏航,邱錫鵬,張錚
文章提出了從關系矩陣中生成一個符號化的有序序列的范式,使模型更容易學習。此外,該文章設計了一種平行行生成的方法來處理過長的目標序列,引入了幾種負采樣策略來利用更平衡的信號提高模型性能。
3、Soft-Labeled Contrastive Pre-Training for Function-Level Code Representation
作者:李孝男*,郭達雅,宮葉云,林云,諶葉龍,邱錫鵬,姜大昕,陳偉柱,段楠
文章提出一種基于軟標簽訓練方式的代碼對比預訓練框架SCodeR來學習更好的函數級代碼表示。此外,該研究團隊還提出了一種基于代碼上下文和抽象語法樹的正樣例構造方法ASST,來幫助模型能夠更好地捕獲代碼中的語義特征。
4、Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts
作者:劉向陽,孫天祥,黃萱菁,邱錫鵬
文章探索了Prompt Tuning性能較弱的原因,并基于此發現提出了一個更好更高效地驅動預訓練模型的方法Late Prompt Tuning(LPT),能夠取得很有競爭力的結果,同時具有更快的訓練速度和更低的內存成本。
5、Weight Perturbation as Defense against Textual Adversaries
作者:徐健涵,李林陽,張稷平,鄭驍慶,Kai-Wei Chang,Cho-Jui Hsieh,黃萱菁
文章探索了通過在參數空間而不是輸入特征空間進行擾動來提高NLP模型對抗魯棒性的可行性。當權重擾動與輸入嵌入空間中的擾動相結合時,可以顯著提高NLP模型的魯棒性,從而在不同數據集的原始樣本和對抗樣本中獲得最高預測準確率。
制圖:實習編輯:何浩然責任編輯:李斯嘉