생성 AI가 기존의 저작권 체계를 완전히 우회하는 과정


ai

  1. 대부분의 대규모 생성 AI는 공개된 데이터셋에 대해 창작자에게 명시적 허가를 받지 않고 학습됨. (Stable Diffusion, Dall-E, Midjourney, GPT-3 등등)
  2. 데이터셋의 규모가 수십억에 도달하고, 공개적인 컨텐츠를 자주 게시하며 컨텐츠를 많은 이들에게 도달시킨 창작자들은 본의아니게 자신들의 컨텐츠가 대규모 생성 AI에 학습되는 일이 발생함.
  3. 이렇게 해도 그동안은 문제가 되지 않았음. AI가 비영리적 목적으로 사용되었기 때문임.
  4. 그러나 이제 영리목적으로 대규모 생성 AI가 사용되기 시작함. 다만 현 시점에서 창작자 개개인의 대규모 생성 AI를 학습하는 회사에 대한 법적 권리주장이 쉽지 않음.
    a. 생성 AI 회사가 창작자의 창작물을 직접적으로 게시하여 판매한 것이 아니며,
    b. 창작자의 창작물의 원형과 1:1로 대응되는 출력물을 판매하는 것이 아니기 때문임
    c. 법적 권리주장을 위해서는 ‘AI 학습 행위 내지 데이터 수집 행위’에 정확히 대응되는 저작권법이 필요한데, 이것이 미비함
  5. 이렇게 학습된 AI를 되도록 많은 유저에게 사용하도록 보급함
  6. 유저들은 무료 또는 유료로 생성 AI를 사용하고, 생성 AI가 생성한 창작물 중 마음에 드는 것을 다운로드, 추천, 공유하기 시작함.
  7. OpenAI와 같은 생성 AI 회사는 유저가 명시적 / 묵시적으로 상호작용한 창작물에 대해 ‘인간 피드백 강화학습’을 시작함. 예컨데 사람들이 추천하고, 다운로드하고, 공유하는 창작물을 더 많이 만들도록 인공지능 모델이 발전됨.
  8. ‘인간 피드백’을 반영하는 과정에서 생성 AI 모델은 ‘원래의 학습 데이터셋을 모방하는 경향’에서 점점 더 탈피해 ‘인간 피드백에 의해 강화된 독창적’인 데이터를 생성할 수 있는 능력을 얻게 됨.
  9. 인간 피드백을 생성 AI 모델에 반영해 모델을 발전시키고, 발전시킨 모델의 출력물에 대해 인간 피드백을 받는 과정을 여러 번 반복하다보면, 나중에는 ‘원래의 학습 데이터셋’ 대신, ‘생성 AI가 생성한 결과물 중에 좋은 것을 되먹이는 자가학습’이 가능해짐.
  10. 인간 창작자가 만든 ‘원래의 학습 데이터셋’은 이 시점에서 없어져도 상관이 없음.
  11. 그리고나서는 ‘인간 피드백’을 예측하는 모델을 만들 수 있을 것. 한 AI 모델은 인간이 좋아할만한 컨텐츠를 만들고, 한 AI 모델은 생성 모델이 만든 컨텐츠가 인간이 좋아할 것인지 평가하는 역할을 나눠가짐.
  12. 그 다음부터는 필요하다면 인간의 피드백을 제외하고, AI의 피드백을 통해서 끊임없이 발전하는 생성 AI가 탄생하기 시작.
  13. 비슷한 사례가 예전에 이미 있었음. 알파고 제로는 인간의 바둑을 일절 관측하지 않고도 인간 최고 플레이어를 초월한 바둑기사가 되었음.
  14. 이 시점부터 ‘학습 데이터를 제공한 인간의 권리주장’이 극단적으로 어려워짐. ‘예전 모델에서는 인간의 데이터를 학습했지만, 현존 모델은 인간이 만든 데이터를 사용하지 않습니다.’라고 말할 수 있게 됨.
  15. 그 상황에서 ‘최초의 모델에게 제공한 데이터가 있으니 그 데이터셋의 데이터를 제공한 인간의 저작권을 존중해야 한다’고 말한다면, 비단 인공지능이 아니라 인간이 인간의 창작물을 약간 참조하거나 간접적으로 영감을 얻어 창작하는 과정과 무엇이 다른가 하는 윤리적인 논쟁이 발생.
  16. 이 시점 이후로부터 사회가 생성 AI를 어떻게 받아들이냐에 따라 추후 기술의 행방이 크게 좌우될 것.
    a. 더 자유로운 기술발전을 옹호할 지
    b. 더 강경하게 인간의 권리를 옹호할 지

윤리적 선택의 갈림길에 놓이게 될 것.