不管是Seq2seq或是Attention model,其中使用的都是RNN,RNN的缺點就是無法平行化處理,導致模型訓練的時間很長,有些論文嘗試用CNN去解決這樣的問題,像是Facebook提出的Convolutional Seq2seq...
Seq2Seq提升前面所示的 Seq2Seq 模型是標準的,但它把整個輸入編碼為一個固定大小的向量,然後用這個向量解碼,這意味著這個向量理論上能包含原來輸入的所有資訊,會對 encoder 和 decoder 有更高的要求,尤其在機器翻譯等...
attention是針對原文的機率分佈,目的在於告訴模型在當前步的預測過程中,原文中的哪些詞更重要,具體的計算公式為在計算出當前步的attention分佈後,對encoder輸出的隱層做加權平均,獲得原文的動態表示,稱為語境向量最終,依靠d...