토큰화: 단어 자르기
텍스트는 모델이 이해할 수 있는 토큰 ID로 변환된다.
인간 언어를 숫자 ID로 바꿔야 컴퓨터가 계산할 수 있다.
입력 텍스트가 토큰 카드들로 분리되고, 각각 고유 ID가 붙는다.
임베딩: 단어 좌표
각 단어 조각은 의미를 담은 숫자 배열(벡터)로 변환된다.
숫자 하나로는 의미를 표현할 수 없어서, 수백 개의 숫자를 묶어서 표현한다.
각 단어가 사전에서 자기 의미를 찾아오는 것처럼, 숫자 배열을 가져온다.
일반적인 모델은 768~4096 차원의 벡터를 사용한다
위치 인코딩: 좌석 번호
트랜스포머는 단어 순서를 모르기에, 위치 정보를 더해준다.
같은 단어라도 어디에 있느냐에 따라 의미가 달라진다.
섞인 단어들이 위치 태그를 받아 순서대로 정렬된다.
수학 공식으로 각 위치에 고유한 번호표를 붙인다
셀프-어텐션: 참고선
각 단어가 다른 단어들을 얼마나 참고할지 결정한다.
문맥을 이해하려면 주변 단어들의 정보를 가져와야 한다.
단어를 클릭하면 어텐션 선의 굵기가 가중치를 보여준다.
단어를 클릭해서 어텐션 가중치를 확인하세요:
선의 굵기가 어텐션 가중치의 크기를 나타낸다
멀티-헤드: 여러 관점
여러 '헤드'가 각자 다른 관점에서 단어 관계를 본다.
한 가지 관점만으론 복잡한 언어를 이해하기 어렵다.
4개의 헤드가 각각 다른 단어 쌍에 집중하고 있다.
구문 구조에 집중
의미적 유사성 포착
위치 관계 추적
장거리 연결 식별
모든 헤드의 출력이 합쳐져 풍부한 표현이 된다
지름길 연결 + 정규화: 정보 고속도로
원래 정보를 보존하면서, 값의 폭발을 막는다.
깊은 네트워크에서 정보가 사라지거나 폭발하는 걸 방지한다.
지름길이 원본 정보를 보존하고, 정규화가 값을 안정시킨다.
원래 입력을 출력에 더해서 정보 손실을 방지
값들을 일정 범위로 스케일링해서 학습 안정화
피드포워드 네트워크: 생각 시간
늘리고 → 꺾고 → 줄이는 과정으로 정보를 정제한다.
어텐션이 수집한 정보를 더 깊이 처리하는 '생각' 단계.
정보가 크게 펼쳐졌다가 구부러지고, 다시 작게 모인다.
출력: 창의성 다이얼
Temperature와 Top-k가 다음 토큰 선택의 '창의성'을 조절한다.
후보들 중에서 어떻게 고르느냐에 따라 결과가 달라진다.
슬라이더를 움직여 확률 분포와 필터링 효과를 직접 확인하세요.
균형 잡힌 선택 (자연스러운 출력)
적당한 후보 풀 (균형)
Temperature는 분포를 평평하게/날카롭게, Top-k는 후보 수를 제한한다
기억 창문 & 계산 저장소: AI의 메모리
모델은 한정된 토큰만 기억하고, 캐시로 속도를 높인다.
무한한 메모리는 불가능하므로, 컨텍스트 윈도우로 제한한다.
메모리 슬롯이 채워지고, KV 캐시 토글로 속도 차이를 확인하세요.
AI가 한 번에 기억할 수 있는 최대 글자 수
이미 계산한 것을 저장해서 속도를 높임