Tokenization

토큰화: 단어 자르기

텍스트는 모델이 이해할 수 있는 토큰 ID로 변환된다.

인간 언어를 숫자 ID로 바꿔야 컴퓨터가 계산할 수 있다.

입력 텍스트가 토큰 카드들로 분리되고, 각각 고유 ID가 붙는다.

입력 텍스트
Hello, world!
토큰 + ID
Hello
15496
,
11
world
995
!
0

임베딩: 단어 좌표

각 단어 조각은 의미를 담은 숫자 배열(벡터)로 변환된다.

숫자 하나로는 의미를 표현할 수 없어서, 수백 개의 숫자를 묶어서 표현한다.

각 단어가 사전에서 자기 의미를 찾아오는 것처럼, 숫자 배열을 가져온다.

Hello
룩업
[0.00, -0.30, ...]
,
룩업
[0.50, -0.11, ...]
world
룩업
[0.07, 0.22, ...]
!
룩업
[-0.49, 0.27, ...]

일반적인 모델은 768~4096 차원의 벡터를 사용한다

위치 인코딩: 좌석 번호

트랜스포머는 단어 순서를 모르기에, 위치 정보를 더해준다.

같은 단어라도 어디에 있느냐에 따라 의미가 달라진다.

섞인 단어들이 위치 태그를 받아 순서대로 정렬된다.

순서 없이 (혼란)
sat
cat
down
The
?
+ 위치 인코딩
순서와 함께 (정돈)
The
위치0
cat
위치1
sat
위치2
down
위치3

수학 공식으로 각 위치에 고유한 번호표를 붙인다

셀프-어텐션: 참고선

각 단어가 다른 단어들을 얼마나 참고할지 결정한다.

문맥을 이해하려면 주변 단어들의 정보를 가져와야 한다.

단어를 클릭하면 어텐션 선의 굵기가 가중치를 보여준다.

Query (Q)
내가 뭘 찾고 있지?
Key (K)
내가 뭘 담고 있지?
Value (V)
내가 줄 정보는?

단어를 클릭해서 어텐션 가중치를 확인하세요:

선의 굵기가 어텐션 가중치의 크기를 나타낸다

멀티-헤드: 여러 관점

여러 '헤드'가 각자 다른 관점에서 단어 관계를 본다.

한 가지 관점만으론 복잡한 언어를 이해하기 어렵다.

4개의 헤드가 각각 다른 단어 쌍에 집중하고 있다.

The
cat
sat
on
the
mat
헤드 1

구문 구조에 집중

Thecatsatonthemat
헤드 2

의미적 유사성 포착

Thecatsatonthemat
헤드 3

위치 관계 추적

Thecatsatonthemat
헤드 4

장거리 연결 식별

Thecatsatonthemat

모든 헤드의 출력이 합쳐져 풍부한 표현이 된다

지름길 연결 + 정규화: 정보 고속도로

원래 정보를 보존하면서, 값의 폭발을 막는다.

깊은 네트워크에서 정보가 사라지거나 폭발하는 걸 방지한다.

지름길이 원본 정보를 보존하고, 정규화가 값을 안정시킨다.

잔차 연결 (Skip)
서브레이어+

원래 입력을 출력에 더해서 정보 손실을 방지

레이어 정규화
불안정
안정

값들을 일정 범위로 스케일링해서 학습 안정화

피드포워드 네트워크: 생각 시간

늘리고 → 꺾고 → 줄이는 과정으로 정보를 정제한다.

어텐션이 수집한 정보를 더 깊이 처리하는 '생각' 단계.

정보가 크게 펼쳐졌다가 구부러지고, 다시 작게 모인다.

입력
확장
GELU
압축
확장
4배 차원 확장
GELU
비선형 활성화 적용
압축
원래 차원으로 복귀

출력: 창의성 다이얼

Temperature와 Top-k가 다음 토큰 선택의 '창의성'을 조절한다.

후보들 중에서 어떻게 고르느냐에 따라 결과가 달라진다.

슬라이더를 움직여 확률 분포와 필터링 효과를 직접 확인하세요.

1.0

균형 잡힌 선택 (자연스러운 출력)

10

적당한 후보 풀 (균형)

the
62%
a
17%
my
11%
your
6%
an
3%
their
2%

Temperature는 분포를 평평하게/날카롭게, Top-k는 후보 수를 제한한다

기억 창문 & 계산 저장소: AI의 메모리

모델은 한정된 토큰만 기억하고, 캐시로 속도를 높인다.

무한한 메모리는 불가능하므로, 컨텍스트 윈도우로 제한한다.

메모리 슬롯이 채워지고, KV 캐시 토글로 속도 차이를 확인하세요.

기억 창문

AI가 한 번에 기억할 수 있는 최대 글자 수

0 / 16 토큰
계산 저장소
K
V

이미 계산한 것을 저장해서 속도를 높임

성능 트레이드오프
메모리 사용량:
생성 속도: