작도닷넷 블로그

『 사이버 가수 생성기 』

06/09/23 07:28(년/월/일 시:분)

사이버 가수, 아담

자동 소설 생성기가 만족스러운 성과를 내면서, 예술의 다른 분야에도 이를 적용하는 연구가 진척되었다. 그 중에 가장 먼저 가시적인 성과를 내놓은 것은 바로 음악 보컬 분야였다.

사실 사이버 가수는 1998년에 잠깐 등장한 적이 있었다. 일본의 쿄코 다케, 한국의 아담, 루시아 등이 그 예이다. 하지만 당시 기술로는 CG를 구현하는데 지나치게 많은 비용과 시간이 필요했고, 목소리 합성 기술의 부재로 인간의 목소리를 립싱크하여 실질적인 사이버 가수라고 보기에는 무리가 있었다. 이후 상업적인 실패로 소리없이 사라지면서 "컴퓨터 바이러스에 걸려 죽었다", "사이버 가수 아담이 군대 갔다"는 어처구니 없는 소문만이 남았다.

하지만 윈도우즈 XP, 맥OS X 이후로 음성합성 기술(TTS)이 운영체제에 기본으로 탑재될 정도로 대중화되었고, 이후 Antares사의 음높이 보정 소프트웨어 Auto-tune과 음성 합성 소프트웨어 Voice-ware의 조합으로, 음성 신디사이징 기능은 노래방 코러스로 응용될 만큼 발전했다.

즉 단순한 사이버 가수는 이미 충분히 가능한 상태다. 문제는 싱어송 라이터를 만드는 문제, 즉 자동 작곡의 문제였다. 연구팀은 일단 기존의 '자동 소설 생성기'에서 사용한 방법을 따라가기로 했다. 기존의 노래를 수집하고 분석해서 생성하는 루틴이었다.

맨 처음 문제는 노래의 수집이었다. 단순한 텍스트 형태로 되어있는 책과 달리, 노래는 텍스트가 간단치가 않았다. 일단 많은 음원을 보유하고 있는 iTunes iTMS, 쥬크온, 멜론, 도시락과 제휴하고, 비슷한 음원을 찾는 기술은 KTF 서치뮤직(휴대폰에서 1515를 누르고 음악을 들려주면 제목을 찾아주는 서비스)을 이용했다. 그리고 음정 분석 유틸리티인 Akoff music composer와 transcribe등의 기술을 이용해 멜로디 라인을 추출했다. 노래방 업체인 태진, 금영과 제휴한 것도 물론이다.

여기에 일본의 오리콘 차트, 미국의 빌보드 차트 등의 유명 순위에 따른 가중치를 부여하고, 한국의 경우는 벨소리, 컬러링 다운로드, 노래방 인기 순위 등을 적용했다. 또한 전문가 집단에 의해 특별히 의미가 있다고 여겨지는 노래의 멜로디 라인은 클래식 속성을 부여하여 가중치에 관계없이 우선 처리되도록 했다.

먼저 기반은 이렇다. 먼저 모든 멜로디 라인을 형식에 따라 분해하고, 각각의 분해된 멜로디 라인은 인기 순위에 따른 가중치가 부여되어 분산 저장된다. 그리고 음계가 다장조로 변환된 멜로디 라인이 작곡 형식에 따라 멜로디를 불러온다. 이때 작곡 형식도 물론 멜로디 라인과 마찬가지의 과정을 거쳐서 불러온다. 그렇게 멜로디 라인이 완성되면 반주를 덧입히는 편곡 과정을 거치고, 음성 신디사이징 모듈을 통해 목소리로 바뀐다. 가사는 자동 소설 생성기 모듈을 가져다 쓴다.

이렇게 하여 만들어진 노래는 흔해 빠지고 천편일률적인 뻔한 노래 뿐이었다. 흔히 사용되는 머니코드(C-Am-Dm-G7)을 배제하는 등의 처리로도 이 진부함을 벗어날 수가 없었다. 즉 노래의 경우 소설보다 클리셰가 차지하는 비중이 훨씬 높았다.

이를 극복하기 위해 '광기 엔진'의 광기를 좀 더 높여야 했다. 노래의 역사를 분석하여 확률적으로 드물게 나타나는 요소가 높게 나타나는 지점(아방가르드 피크)을 파악하여 이를 인위적으로 생성하는 이 엔진은, 랜덤을 기반으로 하면서도 랜덤의 인위성을 조작하는 기능을 수행했다.

하지만 이것만으로도 참신한 노래를 만들기는 부족했다. 이를 극복하기 위해 '천재성'의 요소를 추가한 '광기 엔진 for music'을 따로 개발하기도 했지만, 효과는 신통치 않았다. 국가적인 규모의 예산이 투입됐지만 가시적인 성과가 나오지 않았다.

연구팀은 마지막으로 case by case(하나씩 해보는) 전략을 세웠다. 창작 머신에 의해 생성되는 노래를 전문가 집단이 듣고, 각각에 대해 점수를 매기는 것이다. 그래서 좋다고 생각되는 것을 사람이 골라내고, 그 좋은 노래들에서 거꾸로 규칙성을 찾아내는 것이다.

소스가 백만 단위를 넘어가면서, 소설에서는 보이지 않던 요소가 차츰 보이기 시작했다. 이것은 연구팀이 전혀 예상하지 못했던 것인데, 그것은 '사운드'와 '리듬'이었다.

즉 전문가 집단이 반응을 보이는 것은 의외로 멜로디보다는 기타의 스트로크나 노이즈, 보컬의 잔향 같은 자잘한 사운드적 요소였다. 특히 사운드의 다이나믹함, 즉 리듬의 경우 아무리 멜로디가 단순하고 보잘 것 없어도 충분히 감동을 줄 수 있었다. 이로 인해 힙합 장르와 랩에 대한 이해가 가능했다.

연구팀은 이를 위해 보컬 신디사이징에서 보컬 기교 부분을 더욱 강화하고, 이를 위해 실제 유명 보컬을 수음하여 적용했다. 또한 지금까지 간과하고 있었던 각국의 전통 음악(멜로디보다는 리듬에 집중하는 특징)을 발굴하여 데이터베이스에 대폭 추가했다.

하지만 역시 사운드를 분석하는 것은 대단히 어려운 일이었다. 생성하는 것은 더욱 어려운 일이었다. 이미 프로젝트는 고사 직전의 위기였다. 연구의 난이도는 둘째치고, 지금보다 훨씬 더 많은 천문학적인 예산이 필요했다.

이 위기를 타개하기 위해 연구팀은 매니지먼트 회사와 손을 잡았다. 그들의 조언은 연구범위를 개인 뮤지션으로 한정하여, 죽은 가수를 부활시키자는 것이었다. 예를 들어 지금은 죽은지 150년이 넘은 비틀즈를 부활해보는 것은 어떨까, 하는 것이었다. 이름하여 '넥스트 비틀즈' 프로젝트였다.

사실 비틀즈의 음악은 워낙 뛰어나기 때문에 어지간한 뮤지션은 리메이크조차 엄두도 못내는 성스러운 영역이었다. 하지만 이것은 리메이크가 아니라 창작이다. 특정 뮤지션으로 범위를 좁힌 탓에 연구는 빠르게 진척되었다. 사운드도 아직 아날로그 사운드를 쓰던 시절이라 분석이 쉬웠다.

이렇게 iTMS를 통해 '비틀즈 라이브'가 공개되었다. 웹 상에서 '생성' 버튼을 누르면, 3분 안으로 비틀즈의 새로운 곡을 생성하여 다운로드한다. 이 얼마나 멋진 일인가! 버튼 하나로 10곡도 100곡도 1000곡도, 죽은 가수의 신곡을 얼마든지 들을 수 있는 것이다.

비틀즈 라이브의 폭팔적인 성공으로, 연구팀은 국제적인 수준의 예산을 운용할 수 있게 되었다. 이후로 '엘비스 프레슬리 라이브', '레드 제플린 라이브' 등의 고전 음악을 위주로 런칭했고, 이후로 '라임 엔진'을 적용하여 '투팍 라이브' '듀스 라이브(한국 한정)' 등도 런칭했다.

재정이 탄탄해지고 연구의 가시적인 성과가 보이면서, 현재 연구팀은 처음 계획했던 사이버 가수를 마침내 데뷔시킬 계획을 가지고 있다. 이름은 최초의 사이버 가수에 대한 오마쥬로, '이브'라고 지을 예정이라고 한다. 물론 궁극적인 목표는 사이버 가수도 사용자 마음대로 만드는 것이지만, 일단은 이브의 성공을 보고 차차 규모를 확대할 예정이다. 말처럼 아담과 이브에 의해 탄생될 인류를 상징하는 것이다. 앞으로의 연구도 건투를 빌며 이 글을 마친다.

http://xacdo.net/tt/rserver.php?mode=tb&sl=446

이주한 07/01/30 03:14 덧글 수정/삭제

ㅋㅋ
나라 하나 09/11/28 14:37 덧글 수정/삭제

나라 하나
사이버 싱어 송 라이터

이름
비밀번호
홈페이지 (없어도 됩니다)

비밀글로 등록
작도닷넷은 당신을 사랑합니다.

『 사이버 가수 생성기 』

최근 글