오픈AI가 오디오, 시각 및 텍스트를 실시간으로 추론할 수 있는 새로운 플래그십 인공지능(AI) 모델 GPT-4o를 13일(이하 현지시간) 발표했다.
GPT-4o는 기존 GPT-4에 옴니(Omni)를 뜻하는 ‘o’가 붙었다. 말 그대로 다양한 영역에서 다재다능한 능력을 보여주는 향상된 대규모언어모델(LLM)을 지향한다. GPT-4o는 기존 GPT 모델 대비 시청각 이해도가 크게 개선됐다.
아울러 텍스트, 오디오 및 이미지 출력 등 한층 폭넓은 영역에서 훨씬 더 자연스러운 인간-컴퓨터 상호 작용이 가능하다고 오픈AI는 강조했다. 특히 반응 속도 향상에 초점을 뒀다.
GPT-4o 공개로 챗GPT 보이스 모드는 실시간으로 응답하고 주변을 관찰하는 등 마치 영화 허(Her) 같은 음성 비서 역할을 할 수 있게 될 것이라고 더버지는 전했다.
구글이 14일(현지시간)부터 연례 I/O 개발자 컨퍼런스를 통해 AI 관련 제품을 대거 발표할 예정인 가운데, 오픈AI가 하루 먼저 중량급 뉴스를 발표했다.
생성형 AI 기반 음성 비서 기능이 특히 관심을 끌고 있다.
오픈AI 외에 다른 빅테크 기업들도 생성형AI와 음성 비서를 결합하는 행보에 속도를 내고 있다.
구글은 2월 제미나이( Gemini) 앱을 선보이고 대화형 챗봇과 디지털 음성 비서 기능 모두를 지원하고 나섰다. 애플도 오는 6월 개최하는 연례 세계 개발자 컨퍼런스(WWDC)에서 음성 비서 ‘시리’ 차세대 버전을 선보일 예정이다. 신형 시리에는 생성형 AI 기술도 탑재될 것으로 알려졌다.
아마존 역시 음성 비서 알렉사에 생성형 AI 기술을 적용하는데 적극적이다.