오픈AI가 텍스트 속도와 시청각 처리 가능을 강화한 GPT-4o를 공개했다
[디지털투데이 추현우 기자] 오픈AI가 오디오, 시각 및 텍스트를 실시간으로 추론할 수 있는 새로운 플래그십 인공지능(AI) 모델 GPT-4o를 13일(이하 현지시간) 발표했다.
GPT-4o는 기존 GPT-4에 옴니(Omni)를 뜻하는 ‘o’가 붙었다. 말 그대로 다양한 영역에서 다재다능한 능력을 보여주는 향상된 대규모언어모델(LLM)을 지향한다. GPT-4o는 기존 GPT 모델 대비 시청각 이해도가 크게 개선됐다.
더불어 텍스트, 오디오 및 이미지 출력 등 한층 폭넓은 영역에서 훨씬 더 자연스러운 인간-컴퓨터 상호 작용이 가능하다고 오픈AI는 강조했다. 특히 반응 속도 향상에 초점을 뒀는데 최소 232밀리초(ms), 평균 320ms의 빠른 속도로 오디오 입력에 응답할 수 있다.
GPT-4o는 텍스트, 추론 및 코딩 지능 면에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능에서 새로운 최고 수준의 성능을 제공한다.
GPT-4o의 텍스트 및 이미지 기능은 공개일인 13일부터 즉시 제공된다. GPT-4o는 일반 사용자에게도 개방되며 유료 구독 서비스인 챗GPT 플러스 사용자에게는 곧 음성 처리가 가능한 GPT-4o 버전이 제공될 예정이다.
오픈AI는 개발자와 서드파티 앱·서비스를 위한 GPT-4o API 지원 역시 곧 제공될 것이라고 덧붙였다. GPT-4o API는 기존 GPT-4 터보 대비 2배 더 빠르고 가격은 절반 수준이라는 게 오픈AI의 설명이다.
지난 2022년 11월에 출시된 챗GPT는 현재 가장 성공적인 AI 서비스로 통한다. 지난 4월 기준으로 GPT 앱의 주간활성사용자수는 1억명에 달한다. 오픈AI는 현재 포추 500대 기업 중 92% 이상이 GPT 플랫폼을 사용하고 있다.