Home > 其他 > SEQ2SEQ-VIS: A Visual Debugging Tool forSequence-to-Sequence Models(VAST 2018)

Older »

SEQ2SEQ-VIS: A Visual Debugging Tool forSequence-to-Sequence Models(VAST 2018)

作者:zhaozhe 日期:2019 年 6 月 28 日发表评论 (0) 查看评论

论文：SEQ2SEQ-VIS: A Visual Debugging Tool forSequence-to-Sequence Models

作者：Hendrik Strobelt; Sebastian Gehrmann; Michael Bhrisch; Adam Perer; Hanspeter Pfister; Alexander M. Rush

1.简介

本文介绍了一种针对 seq2seq 模型的可视化调试工具 Seq2Seq-Vis，从而更高效地进行分析和调试模型。

2.背景

1) Sequence to Sequence：RNN最重要的一个变种，也叫Encoder-Decoder模型。

基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder，encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义。decoder则负责根据语义向量生成指定的序列。

这个模型不限制输入和输出的序列长度，应用非常广泛。主要包括：机器翻译，自然语言生成、图像描述以及文本摘要等。

2) Attention-based Model：指的是神经网络模型增加Attention机制。

具体来说，当人们注意到某个目标或某个场景时，该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。举例：翻译“Tom chase Jerry”中的Jerry时，“Tom”，“chase”和“Jerry”分别拥有不同的attention权重，即这三个词对翻译后的“杰瑞”有不同的影响力。

3)本文模型：

seq2seq 模型通过五个阶段，将源序列翻译为目标序列：（S1）Encoder：将源序列编码为潜在向量（S2）Decoder：将其解码为目标序列（S3）Attention：编码器和解码器之间注意力联系（S4）Prediction：在每个时间步骤中，预测单词概率（S5）beam Search：集束搜索。

重点讲一下beam Search：

Seq2seq模型在给定前缀的情况下预测所有下一个单词的概率。虽然人们可以在每个时间步骤中简单地采用最高概率词，但是这种选择可能导致错误的路径。设置Beam Size为k，永远选择所有序列中概率最大的k个。一旦所有K个光束通过生成停止标记而终止，则最终预测是具有最高分数的翻译。

3.动机