2025/02 5

[모델 경량화] [1] Quantization 이란?

1. 모델 경량화와 Quantization: 심층 신경망 최적화를 위한 전략  최근 인공지능(AI)과 딥러닝 기술이 폭발적으로 발전하면서, 높은 정확도를 자랑하는 대규모 신경망 모델들이(ChatGPT, DeepSeek 등) 각광받고 있습니다. 그러나 이러한 모델들은 높은 메모리 사용량, 전력 소모 그리고 긴 추론 지연(latency) 등의 문제점을 내포하고 있습니다. 이에 대한 해결책으로 모델 경량화 기술이 연구되고 있으며, 그 중 Quantization(양자화)는 대표적인 기법으로 주목받고 있습니다.  2022년 ChatGPT의 등장은 인공지능 기술이 실제로 상용화되어 사람들에게 널리 알려지게 된 전환점 되었으며, 이후 대중의 일상에도 인공지능 기술이 더욱 가까워지고 있습니다. 하지만 인공지능이 우리 ..

[Transformer] Transformer 코드 리뷰

Positional Encodingclass PositionalEncoding(nn.Module): """ Transformer는 입력 토큰의 순서를 고려하기 위해 위치 정보를 부가한다. 이를 위해 논문에서는 사인/코사인 함수를 이용한 Positional Encoding을 사용. PE(pos, 2i) = sin( pos / (10000^(2i/d_model)) ) PE(pos, 2i+1) = cos( pos / (10000^(2i/d_model)) ) """ def __init__(self, d_model, max_len=5000): super(PositionalEncoding, self).__init__() # pos : 0부터 max_..

[선형대수] 제2장: 선형결합, 생성, 기저 벡터

수학은 천재가 아닌, 적은 양의 상상의 자유를 필요로 한다. 덧붙여, 더 많은 양에서의 그것을 우린 광기라 부른다.- 수학자 앵거스 K. 로저스 -    1. 좌표를 스칼라로 보는 새로운 관점벡터를 (예를 들어) (3, –2)라는 숫자 쌍으로 표현할 때, 보통은 단순히 x축 방향으로 3, y축 방향으로 –2만큼 이동하는 점이라고 해석함. 그런데 여기서는 각 숫자를 스칼라로서 바라봄.î (아이햇): 오른쪽을 향하고 길이가 1인 특별한 벡터ĵ (제이햇): 위쪽을 향하고 길이가 1인 특별한 벡터이제 (3, –2)는3이라는 스칼라가 î를 늘려 3배로 만들고,–2라는 스칼라가 ĵ를 뒤집고 2배로 만들며,두 벡터를 더한 결과임을 알 수 있음.즉, (3, –2)는 3·î + (–2)·ĵ로 표현됨.이러한 해..

[선형대수] 제1장: 벡터란 무엇인가?

숫자를 좌표로써 도입한 것은 기존의 틀을 깬 혁명이었다.- 수학자 헤르만 바일 -    1. 벡터의 근본적 개념선형대수의 모든 것의 뿌리이자 기본 주춧돌은 벡터임. 벡터는 여러 분야에서 서로 다른 관점으로 해석되는데, 대표적으로 세 가지 관점이 있음:물리학적 관점:벡터는 공간에서 특정한 방향과 크기를 가진 화살표로 이해됨.화살표의 길이는 크기를 나타내며, 방향은 그 화살표가 가리키는 방향을 나타냄.중요한 점은, 같은 크기와 방향을 가지면 화살표의 위치(평행 이동)는 달라도 동일한 벡터로 봄.컴퓨터 과학적 관점:벡터는 순서가 정해진 숫자들의 나열임.예를 들어, 집의 데이터를 분석할 때 집의 평수와 가격이라는 두 가지 특성만 고려한다면, 각 집은 [평수, 가격]이라는 2차원 벡터로 표현됨.여기서 순서가 중요..

[Transformer] Transformer의 다양한 Attention

Transformer는 자연어 처리(NLP)에서 놀라운 성능을 보여주는 대표적인 모델 구조로, 이 안에는 여러 종류의 Attention 메커니즘이 내재되어 있음. 특히 Multi-Head Attention을 중심으로 Encoder와 Decoder 각각의 역할에 맞춰 세분화된 Attention을 사용함. 그렇다면 왜 Transformer에는 이렇게 다양한 Attention이 필요하며, 각각의 Attention은 어떤 방식으로 작동하는 걸까? 그리고 어떤 점에서 미래 단어를 마스킹해야만 할까? 이 글에서는 이러한 질문들에 대해 깊이 있는 설명을 해보도록 하겠음. 왜 Transformer에는 다양한 Attention이 쓰여야만 했을까?  Transformer 이전의 전통적인 RNN(Recurrent Neura..