MongTae

  • 홈
  • 태그
  • 방명록

기울기 소실 1

[Transformer] Transformer 왜 개발함?

Motivation of TransformerTransformer는 왜 개발됨?기존 LM(Language Model)에서 발생하는 문제점을 해결하기 위해서 고안.기존 RNN 기반 모델에서는 인코더에서 계산한 결과가 고정된 길이의 Context Vector로 압축되어 정보를 담아내다보니 정호가한 정보를 담아내지 못함. 이러한 문제를 해결하기 위해서 Transformer 개발함.또한 RNN 기반의 LLM(Large Language Model)은 Long term dependency 문제가 있음. Long term dependency는 긴 문장에서의 각 토큰 간의 상호 의존성에 문제가 있음. 문장이 길 경우 앞쪽의 단어들은 잊어버리는 문제점이 있었음.즉, RNN 기반의 언어 모델에는 두 가지 한계가 있음. 1..

Deep Learning/Transformer 2025.01.30
이전
1
다음
더보기
프로필사진

MongTae

  • 분류 전체보기 (14)
    • Deep Learning (5)
      • Deep Learning (0)
      • Transformer (4)
      • Model Compression (1)
    • Mathematics (2)
      • Linear Algebra (2)
    • Algorithm (2)
      • 이코테 (2)
    • etc (4)

Tag

10926번, 10718번, 10818번, 파이썬, Gradient Vanishing, working tree, transformer, 10869번, 2884번, 10950번, 10172번, positional encoding, 기울기 소실, 백준, multi-head attention, 이코테, 10871번, 모험가길드, 2753번, 모델경량화,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바