AI | Hello AI | Hello AI

Modality

AI가 만드는 세 가지

만드는 결과물(텍스트, 이미지, 둘 다)에 따라 다른 기술이 사용된다.

텍스트는 단어 조각으로, 이미지는 점(픽셀)으로 처리된다.

텍스트, 이미지, 멀티모달 - 각각 다른 방식으로 콘텐츠를 만든다.

텍스트

이미지

멀티모달

Language Model

LLM은 다음 토큰 확률을 예측하는 모델이다.

문장 생성은 '다음에 올 단어'를 반복해서 고르는 과정이다.

막대 그래프가 각 후보 토큰의 확률을 보여주고, 하나가 선택된다.

Temperature0.7

후보 토큰

35%the선택됨

25%a

18%this

12%an

10%one

Retrieval + Generation

RAG는 '찾기'와 '생성'을 합친 시스템이다.

AI가 모르는 정보를 외부 문서에서 찾아서 보충한다.

도서관에서 문서를 찾고, 벡터로 변환해 가장 관련 있는 정보를 가져온다.

도서관

벡터 공간

답변 + 인용

“직원은 연간 15일의 유급 휴가를 받습니다.”
— HR 정책 핸드북 [1]

Image Generation

Diffusion은 흐릿한 노이즈에서 점점 선명한 이미지를 만들어간다.

한 번에 완성하지 않고 여러 단계를 거쳐 완성한다.

타임라인이 단계별로 노이즈가 정리되는 과정을 보여준다.

Steps20

순수 노이즈

25%

Step 20

선명한 이미지