새로운 습관을 만들었습니다. 일주일에 한 편의 논문을 읽고 요약문을 작성합니다.
Stable Diffusion (안정적 발산)이란?
AI 커뮤니티 Stability AI가 만든 conditional diffusion 모델입니다.
Conditional Diffusion (조건부 발산)이란?
관측한 정보 내에서 쓸만한 정보를 추출할 수 있게 합니다.
The conditional diffusion model allows us to exploit useful information in observed values for accurate imputation. We provide the reverse process of the conditional diffusion model, and then develop a self-supervised training method. (Reference: CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation)
관측한 정보란?
- AI 모델 학습에 사용된 데이터셋
- 예를 들어 방대한 이미지와 영상 데이터, 그리고 이미지를 설명하는 의미를 담은 문장의 쌍
쓸만한 정보란?
- ‘고양이’라는 텍스트에서 ‘고양이 이미지’를 연결시키는 연결고리를 뜻합니다.
- 머리 위에 두 개의 귀가 솟아 있고 털이 나있고 오밀조밀한 표정과 맹수의 이빨이 있으면 고양이다, 이런 고양이의 특징을 ‘쓸만한 정보’라고 합니다.
Stable Diffusion이 할 수 있는 일은?
텍스트를 입력하면 이미지를 출력할 수 있습니다. 이렇게요.
“Birds on the tree as an ukiyoe style - 일본 우키요에 화풍으로 표현된 나무 위에 앉은 새들.”
Stable Diffusion이 다른 Conditional Diffusion 모델보다 훨씬 좋은 점은?
OpenAI의 Dall-E처럼 방대한 데이터셋과 방대한 연산 자원 (GPU)이 없는 개인도 사용할 수 있습니다. 노트북에서도 구동이 됩니다. 즉, 가성비가 좋습니다.
- 10 GB of VRAM on consumer GPUs, generating images at 512x512 pixels in a few seconds
Stable Diffusion은 어떻게 학습했나?
- 4,000개의 NVIDIA A100 그래픽 카드를 가지고,
- 50억개의 이미지와 텍스트쌍을 포함하는 LAION-5B 데이터셋의 subset (일부분)으로
학습했습니다.