自注意力机制是如何从原理到计算细节全解析的?一篇文章就能搞懂?