Consistent Webtoon Image Generation based on Text Prompt Optimization
August 2024 (128 Words, 1 Minutes)
이 연구에 대해
웹툰 시장이 급성장하면서 다양한 텍스트 콘텐츠를 웹툰으로 변환하려는 시도가 증가하고 있다. 하지만 기존 AI 기반 웹툰 생성 시스템들은 개별 장면의 시각적 완성도에만 집중하여, 연속된 장면 간의 일관성과 스토리텔링의 자연스러운 흐름을 보장하지 못하는 한계가 있었다. 특히 교육 분야에서 복잡한 개념을 시각화하거나, 문학 작품을 웹툰 형태로 재해석할 때 기존 도구들로는 만족스러운 결과를 얻기 어려웠다. 이러한 문제점을 해결하기 위해 보다 체계적이고 일관성 있는 웹툰 자동 생성 시스템이 필요하다고 판단했다.
연구 목표
이 프로젝트의 핵심 목표는 텍스트의 맥락을 정확히 이해하고, 연속된 이미지 간의 시각적 일관성을 유지하면서 웹툰 특성에 맞는 자동 생성 시스템을 개발하는 것이다. 특히 다음 세 가지 핵심 요소에 중점을 두었다.
첫째, GPT-4와 DALL-E 3를 활용한 텍스트 유형별 맞춤형 프롬프트 생성 시스템을 구현했다. 일반 서사 텍스트와 교육/과학 텍스트를 구분하여 각각의 특성에 최적화된 시각화 전략을 적용했다.
둘째, CLIP 모델을 기반으로 한 정량적 이미지 품질 평가 시스템을 도입했다. 생성된 이미지와 원문 텍스트 간의 의미적 일치도를 수치화하고, 목표 기준에 미달할 경우 자동으로 프롬프트를 개선하는 피드백 루프를 구현했다.
셋째, 연속 장면 간 시각적 일관성을 보장하는 메커니즘을 개발했다. 현재 이미지와 이전 이미지들 간의 코사인 유사도를 계산하고 시간적 가중치를 적용하여 전체적인 일관성을 유지하도록 했다.
기술적 구현
시스템은 Streamlit을 활용한 사용자 친화적 인터페이스로 구현했으며, 다양한 장르의 텍스트 데이터셋을 대상으로 성능 평가를 진행했다. 실험 결과 평균 0.89점의 CLIP 점수를 기록하여 제안한 최적화 방식이 이미지의 일관성 및 스토리 연속성 유지에 효과적임을 확인했다. 특히 교육/과학 텍스트에서는 거의 모든 유형에서 1.0의 높은 점수를 기록했으며, 서사 텍스트의 경우에도 구체적 묘사가 풍부한 텍스트에서 우수한 성능을 보였다. 이를 통해 다양한 분야에서 활용 가능한 범용성을 입증했다.
향후 발전 방향
현재 시스템은 기본 프레임워크 구현에 중점을 두었지만, 실제 활용을 위해서는 지속적인 개선이 필요하다. 5컷 이상 생성 시 스타일 편차 누적 문제 해결, 생성 속도 최적화, 그리고 더 다양한 장르에 대한 최적화 작업을 계획하고 있다. 또한 사용자 피드백을 반영한 인터페이스 개선과 실제 웹툰 창작자들과의 협업을 통한 실용성 검증도 중요한 과제다. 이를 통해 AI 기술이 창작자의 창의성을 보완하는 실질적인 도구로 발전시키고자 한다.