MongTae

  • 홈
  • 태그
  • 방명록

multi-head attention 1

[Transformer] Transformer의 다양한 Attention

Transformer는 자연어 처리(NLP)에서 놀라운 성능을 보여주는 대표적인 모델 구조로, 이 안에는 여러 종류의 Attention 메커니즘이 내재되어 있음. 특히 Multi-Head Attention을 중심으로 Encoder와 Decoder 각각의 역할에 맞춰 세분화된 Attention을 사용함. 그렇다면 왜 Transformer에는 이렇게 다양한 Attention이 필요하며, 각각의 Attention은 어떤 방식으로 작동하는 걸까? 그리고 어떤 점에서 미래 단어를 마스킹해야만 할까? 이 글에서는 이러한 질문들에 대해 깊이 있는 설명을 해보도록 하겠음. 왜 Transformer에는 다양한 Attention이 쓰여야만 했을까?  Transformer 이전의 전통적인 RNN(Recurrent Neura..

Deep Learning/Transformer 2025.02.06
이전
1
다음
더보기
프로필사진

MongTae

  • 분류 전체보기 (14)
    • Deep Learning (5)
      • Deep Learning (0)
      • Transformer (4)
      • Model Compression (1)
    • Mathematics (2)
      • Linear Algebra (2)
    • Algorithm (2)
      • 이코테 (2)
    • etc (4)

Tag

기울기 소실, 10818번, 모델경량화, transformer, 파이썬, 10926번, 2753번, 10718번, working tree, 10871번, 10172번, 10950번, 10869번, 백준, 이코테, Gradient Vanishing, positional encoding, 모험가길드, 2884번, multi-head attention,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바