在具有编码器和解码器的seq2seq模型中,在每个生成步骤中,softmax层输出整个词汇表上的分布。在CNTK中,可以使用C.hardmax函数轻松实现贪婪解码器。看起来像这样。

def create_model_greedy(s2smodel):
    # model used in (greedy) decoding (history is decoder's own output)
    @C.Function
    @C.layers.Signature(InputSequence[C.layers.Tensor[input_vocab_dim]])
    def model_greedy(input): # (input*) --> (word_sequence*)
        # Decoding is an unfold() operation starting from sentence_start.
        # We must transform s2smodel (history*, input* -> word_logp*) into a generator (history* -> output*)
        # which holds 'input' in its closure.
        unfold = C.layers.UnfoldFrom(lambda history: s2smodel(history, input) >> **C.hardmax**,
                                     # stop once sentence_end_index was max-scoring output
                                     until_predicate=lambda w: w[...,sentence_end_index],
                                     length_increase=length_increase)
        return unfold(initial_state=sentence_start, dynamic_axes_like=input)
    return model_greedy


但是,在每个步骤中,我都不想以最大的概率输出令牌。相反,我想要一个随机解码器,该解码器根据词汇的概率分布生成令牌。

我怎样才能做到这一点?任何帮助表示赞赏。谢谢。

最佳答案

您可以在采用hardmax之前将噪声添加到输出中。特别是,您可以使用C.random.gumbelC.random.gumbel_likeexp(output)按比例采样。这称为gumbel-max trickcntk.random模块还包含其他分布,但是如果您有对数概率,则您很可能希望在hardmax之前添加gumbel噪声。一些代码:

@C.Function
def randomized_hardmax(x):
    noisy_x = x + C.random.gumbel_like(x)
    return C.hardmax(noisy_x)


然后用hardmax替换randomized_hardmax

09-17 00:29