Modality

AI가 만드는 세 가지

만드는 결과물(텍스트, 이미지, 둘 다)에 따라 다른 기술이 사용된다.

텍스트는 단어 조각으로, 이미지는 점(픽셀)으로 처리된다.

텍스트, 이미지, 멀티모달 - 각각 다른 방식으로 콘텐츠를 만든다.

AI
텍스트
이미지
멀티모달
Language Model

LLM = 다음 토큰 예측

LLM은 다음 토큰 확률을 예측하는 모델이다.

문장 생성은 '다음에 올 단어'를 반복해서 고르는 과정이다.

막대 그래프가 각 후보 토큰의 확률을 보여주고, 하나가 선택된다.

0.7

후보 토큰

Retrieval + Generation

RAG = 검색 + 생성

RAG는 '찾기'와 '생성'을 합친 시스템이다.

AI가 모르는 정보를 외부 문서에서 찾아서 보충한다.

도서관에서 문서를 찾고, 벡터로 변환해 가장 관련 있는 정보를 가져온다.

직원은 연간 15일의 유급 휴가를 받습니다.

HR 정책 핸드북 [1]
Image Generation

Diffusion = 디노이징 과정

Diffusion은 흐릿한 노이즈에서 점점 선명한 이미지를 만들어간다.

한 번에 완성하지 않고 여러 단계를 거쳐 완성한다.

타임라인이 단계별로 노이즈가 정리되는 과정을 보여준다.

20