Modality
AI가 만드는 세 가지
만드는 결과물(텍스트, 이미지, 둘 다)에 따라 다른 기술이 사용된다.
텍스트는 단어 조각으로, 이미지는 점(픽셀)으로 처리된다.
텍스트, 이미지, 멀티모달 - 각각 다른 방식으로 콘텐츠를 만든다.
AI
텍스트
이미지
멀티모달
Language Model
LLM = 다음 토큰 예측
LLM은 다음 토큰 확률을 예측하는 모델이다.
문장 생성은 '다음에 올 단어'를 반복해서 고르는 과정이다.
막대 그래프가 각 후보 토큰의 확률을 보여주고, 하나가 선택된다.
Retrieval + Generation
RAG = 검색 + 생성
RAG는 '찾기'와 '생성'을 합친 시스템이다.
AI가 모르는 정보를 외부 문서에서 찾아서 보충한다.
도서관에서 문서를 찾고, 벡터로 변환해 가장 관련 있는 정보를 가져온다.
Image Generation
Diffusion = 디노이징 과정
Diffusion은 흐릿한 노이즈에서 점점 선명한 이미지를 만들어간다.
한 번에 완성하지 않고 여러 단계를 거쳐 완성한다.
타임라인이 단계별로 노이즈가 정리되는 과정을 보여준다.
