방송미디어통신위원회는 2026년 5월 7일, '2만여 시간'에 달하는 고품질 방송영상을 인공지능(AI) 학습용 데이터로 확보했다고 발표했다. 이 데이터셋은 방송 프로그램과 미디어 콘텐츠에서 추출된 영상 자료로 구성되어 있으며, AI 모델의 학습과 개발을 지원하기 위해 구축됐다.
방통위는 이번 데이터 확보를 통해 국내 AI 생태계의 기반을 강화하고자 한다고 밝혔다. 방송영상은 자연스러운 언어 처리, 시각 인식, 장면 분석 등 다양한 AI 기술 학습에 적합한 특성을 지니고 있어, 고품질 데이터로서의 가치가 높다. 특히 2만여 시간이라는 방대한 분량은 AI 연구와 산업 적용에 실질적인 도움을 줄 수 있는 규모다.
이번 사업은 방송미디어통신위원회의 디지털 미디어 정책 일환으로 진행됐다. 방통위는 기존 방송 아카이브와 공공 콘텐츠를 활용해 데이터를 수집·가공했으며, 저작권과 프라이버시 문제를 고려한 처리 과정을 거쳤다. 데이터의 고품질성을 확보하기 위해 영상 해상도, 음성 명료도, 콘텐츠 다양성 등을 기준으로 선별했다.
AI 학습 데이터의 중요성은 날로 커지고 있다. AI 모델은 대량의 고품질 데이터를 통해 정확도와 성능을 높이는데, 국내에서는 영상 데이터의 부족이 과제로 지적돼 왔다. 방통위의 이번 성과는 이러한 문제를 해결하는 데 기여할 전망이다. 방송영상 데이터는 드라마, 뉴스, 예능 등 다양한 장르를 포함해 AI의 다채로운 응용 분야를 지원할 수 있다.
방통위 관계자는 "이번 데이터 확보는 방송 콘텐츠의 가치를 AI 시대에 재조명하는 계기"라고 평가했다. 앞으로 이 데이터는 공공 AI 플랫폼이나 연구 기관에 제공될 가능성이 있으며, 민간 기업의 AI 개발도 촉진될 것으로 보인다. 정부는 AI 데이터 생태계 구축을 위해 추가 투자와 협력을 확대할 계획이다.
최근 들어 정부 차원의 AI 데이터 전략이 강화되고 있다. 방통위는 방송·미디어 분야에서 데이터 활용을 선도하며, 청년 시각을 반영한 정책도 병행하고 있다. 이번 데이터셋은 AI 기반 방송 기술 개발, 예를 들어 자동 자막 생성이나 콘텐츠 추천 시스템 등에 활용될 수 있다.
데이터 확보 과정에서 방통위는 기술적·법적 검토를 철저히 했다. 영상 데이터의 메타정보(시간, 장르, 화자 등)도 함께 구축해 AI 학습 효율성을 높였다. 2만여 시간은 누적 재생 시간 기준으로, 실제 영상 길이를 고려한 실질적 규모다.
이 발표는 정책브리핑을 통해 공식화됐으며, 관련 첨부 자료가 제공됐다. 방송미디어통신위원회의 지속적인 노력으로 AI와 방송 미디어의 융합이 가속화될 것으로 기대된다. 국내 AI 산업이 글로벌 수준으로 도약하는 데 이번 데이터가 중요한 역할을 할 전망이다.



