- 대부분의 대규모 생성 AI는 공개된 데이터셋에 대해 창작자에게 명시적 허가를 받지 않고 학습됨. (Stable Diffusion, Dall-E, Midjourney, GPT-3 등등)
- 데이터셋의 규모가 수십억에 도달하고, 공개적인 컨텐츠를 자주 게시하며 컨텐츠를 많은 이들에게 도달시킨 창작자들은 본의아니게 자신들의 컨텐츠가 대규모 생성 AI에 학습되는 일이 발생함.
- 이렇게 해도 그동안은 문제가 되지 않았음. AI가 비영리적 목적으로 사용되었기 때문임.
- 그러나 이제 영리목적으로 대규모 생성 AI가 사용되기 시작함. 다만 현 시점에서 창작자 개개인의 대규모 생성 AI를 학습하는 회사에 대한 법적 권리주장이 쉽지 않음.
a. 생성 AI 회사가 창작자의 창작물을 직접적으로 게시하여 판매한 것이 아니며,
b. 창작자의 창작물의 원형과 1:1로 대응되는 출력물을 판매하는 것이 아니기 때문임
c. 법적 권리주장을 위해서는 ‘AI 학습 행위 내지 데이터 수집 행위’에 정확히 대응되는 저작권법이 필요한데, 이것이 미비함 - 이렇게 학습된 AI를 되도록 많은 유저에게 사용하도록 보급함
- 유저들은 무료 또는 유료로 생성 AI를 사용하고, 생성 AI가 생성한 창작물 중 마음에 드는 것을 다운로드, 추천, 공유하기 시작함.
- OpenAI와 같은 생성 AI 회사는 유저가 명시적 / 묵시적으로 상호작용한 창작물에 대해 ‘인간 피드백 강화학습’을 시작함. 예컨데 사람들이 추천하고, 다운로드하고, 공유하는 창작물을 더 많이 만들도록 인공지능 모델이 발전됨.
- ‘인간 피드백’을 반영하는 과정에서 생성 AI 모델은 ‘원래의 학습 데이터셋을 모방하는 경향’에서 점점 더 탈피해 ‘인간 피드백에 의해 강화된 독창적’인 데이터를 생성할 수 있는 능력을 얻게 됨.
- 인간 피드백을 생성 AI 모델에 반영해 모델을 발전시키고, 발전시킨 모델의 출력물에 대해 인간 피드백을 받는 과정을 여러 번 반복하다보면, 나중에는 ‘원래의 학습 데이터셋’ 대신, ‘생성 AI가 생성한 결과물 중에 좋은 것을 되먹이는 자가학습’이 가능해짐.
- 인간 창작자가 만든 ‘원래의 학습 데이터셋’은 이 시점에서 없어져도 상관이 없음.
- 그리고나서는 ‘인간 피드백’을 예측하는 모델을 만들 수 있을 것. 한 AI 모델은 인간이 좋아할만한 컨텐츠를 만들고, 한 AI 모델은 생성 모델이 만든 컨텐츠가 인간이 좋아할 것인지 평가하는 역할을 나눠가짐.
- 그 다음부터는 필요하다면 인간의 피드백을 제외하고, AI의 피드백을 통해서 끊임없이 발전하는 생성 AI가 탄생하기 시작.
- 비슷한 사례가 예전에 이미 있었음. 알파고 제로는 인간의 바둑을 일절 관측하지 않고도 인간 최고 플레이어를 초월한 바둑기사가 되었음.
- 이 시점부터 ‘학습 데이터를 제공한 인간의 권리주장’이 극단적으로 어려워짐. ‘예전 모델에서는 인간의 데이터를 학습했지만, 현존 모델은 인간이 만든 데이터를 사용하지 않습니다.’라고 말할 수 있게 됨.
- 그 상황에서 ‘최초의 모델에게 제공한 데이터가 있으니 그 데이터셋의 데이터를 제공한 인간의 저작권을 존중해야 한다’고 말한다면, 비단 인공지능이 아니라 인간이 인간의 창작물을 약간 참조하거나 간접적으로 영감을 얻어 창작하는 과정과 무엇이 다른가 하는 윤리적인 논쟁이 발생.
- 이 시점 이후로부터 사회가 생성 AI를 어떻게 받아들이냐에 따라 추후 기술의 행방이 크게 좌우될 것.
a. 더 자유로운 기술발전을 옹호할 지
b. 더 강경하게 인간의 권리를 옹호할 지
윤리적 선택의 갈림길에 놓이게 될 것.