TIL - Stable Diffusion이란 무엇인가.


새로운 습관을 만들었습니다. 일주일에 한 편의 논문을 읽고 요약문을 작성합니다.

Stable Diffusion (안정적 발산)이란?

AI 커뮤니티 Stability AI가 만든 conditional diffusion 모델입니다.

Conditional Diffusion (조건부 발산)이란?

관측한 정보 내에서 쓸만한 정보를 추출할 수 있게 합니다.

The conditional diffusion model allows us to exploit useful information in observed values for accurate imputation. We provide the reverse process of the conditional diffusion model, and then develop a self-supervised training method. (Reference: CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation)

관측한 정보란?

  • AI 모델 학습에 사용된 데이터셋
    • 예를 들어 방대한 이미지와 영상 데이터, 그리고 이미지를 설명하는 의미를 담은 문장의 쌍

쓸만한 정보란?

  • ‘고양이’라는 텍스트에서 ‘고양이 이미지’를 연결시키는 연결고리를 뜻합니다.
    • 머리 위에 두 개의 귀가 솟아 있고 털이 나있고 오밀조밀한 표정과 맹수의 이빨이 있으면 고양이다, 이런 고양이의 특징을 ‘쓸만한 정보’라고 합니다.

Stable Diffusion이 할 수 있는 일은?

텍스트를 입력하면 이미지를 출력할 수 있습니다. 이렇게요.

“Birds on the tree as an ukiyoe style - 일본 우키요에 화풍으로 표현된 나무 위에 앉은 새들.”

birds

Stable Diffusion이 다른 Conditional Diffusion 모델보다 훨씬 좋은 점은?

OpenAI의 Dall-E처럼 방대한 데이터셋과 방대한 연산 자원 (GPU)이 없는 개인도 사용할 수 있습니다. 노트북에서도 구동이 됩니다. 즉, 가성비가 좋습니다.

  • 10 GB of VRAM on consumer GPUs, generating images at 512x512 pixels in a few seconds

Stable Diffusion은 어떻게 학습했나?

dataset

  • 4,000개의 NVIDIA A100 그래픽 카드를 가지고,
  • 50억개의 이미지와 텍스트쌍을 포함하는 LAION-5B 데이터셋의 subset (일부분)으로

학습했습니다.

References

Stable Diffusion Announcement