深入理解BERT Transformer ,不仅仅是注意力机制

BERT是google最近提出的一个自然语言处理模型,它在许多任务检测上表现非常好。如:问答、自然语言推断和释 … Continue reading “深入理解BERT Transformer ,不仅仅是注意力机制”

BAM!利用知识蒸馏和多任务学习构建的通用语言模型

在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准GLUE 上取得了当时最好的效果:1 … Continue reading “BAM!利用知识蒸馏和多任务学习构建的通用语言模型”

Attention isn’t all you need!BERT的力量之源远不止注意力

本文尝试从自然语言理解的角度解释BERT的强大能力。作者指出Transformer不只有注意力(解析),还注重 … Continue reading “Attention isn’t all you need!BERT的力量之源远不止注意力”