주식

[OpenAi] ChatGPT 이제 보고 듣고 말하는 기능까지 가능해진다.

까뉴 2023. 9. 28. 00:00
반응형

출처 : OpenAI 홈페이지

 생성 인공지능(AI) 챗GPT가 한 단계 더 진화했습니다. 이제 사람과 음성으로 대화하고, 이미지를 분석해 질문에 답할 수 있는 기능과 이미지를 생성할 수 있는 기능이 추가되었습니다. 아마존의 알렉사, 애플의 시리와 비슷한 기능을 추가했다고 보시면 됩니다. 이러한 업데이트로 오픈AI는 최종 목표인 범용인공지능(AGI)에 한 걸음 더 다가갔다는 평가를 받았습니다. 이제 사용자는 챗GPT에게 말을 걸고 음성으로 답변을 받을 수 있습니다. 이 기능은 따로 인터넷이나 휴대폰을 키지 않고 스피커와 연동해서 사용이 가능하기 때문에 편리성이 말도 안되게 높아졌다고 보입니다.

 

출처 : OpenAI 홈페이지

음성대화를 하는 프로세스는 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 사용자가 말한 내용을 텍스트로 변환하면, 챗GPT가 이를 텍스트로 변환해 대규모 언어 모델(LLM)에 전달하고, 알맞은 답변을 도출한뒤 다시 음성으로 변환해 말하는 구조입니다.
지금 현재 챗GPT에는 음성 입력, 음성 출력 기능은 프롬프트를 통해 사용이 가능하지만, 내장기능으로는 업데이트가 되지는 않았습니다. 2주이내로 음성대화 기능이 지원됩니다. 

현재는 이 기능을 간접적으로나마 체험해보고 싶으신 분들은 Chrome 확장 프로그램 Talk-to-Chatgpt 또는 Ondoku3-Chatgpt라는 크롬프로그램을 사용하여 이 기능을 챗GPT에 추가해야 합니다. 프롬프트를 통한 음성대화는 영어로만 대화가 가능하고, 이후 구축되는 음성대화는 스포티파이와 협력하여 다른 언어로 번역이 가능한 방안을 검토중입니다.

 

또한, 이미지 분석 기능 또한 탑재가 됩니다. 이용자가 자신의 자켓을 GPT에게 업로드하면 그것에 어울리는 옷이나 색상을 추천해주고, 주식 그래프를 분석하는 등 다양한 도움을 받을 수 있습니다. 

출처 : OpenAI 홈페이지

실제로 OpenAI 홈페이지에서 자전거의 이미지를 업로드하고 좌석 높이를 어떻게 내리는지 GPT에게 질문하자 일반적인 사람들이 조언해주는 것처럼 볼트 유형을 인식하고 육각렌치를 쓰라는 조언를 해줍니다. 

 

음성대화 기능, 시리 알렉사 같은 AI 비서와 다른점

 AI 비서는 주로 이용자의 명령을 이해하고 명령대로 수행하는 것에 초점이 맞춰진 반면에 챗GPT는 대화를 하고 조언을 해주는 것에 초점을 맞췄다고 생각하시면 됩니다. 일반적으로 SF영화에 나오는 인공지능의 기능을 구축했다고 보시면 됩니다, 

 

구글렌즈서비스와 다른점

 현재까지 이미지 정보를 획득하기 위해 가장 많이 사용했던 구글렌즈서비스는 유사한 이미지를 찾아 이와 관련된 사이트를 찾을 수 있게 도와주었던 반면에 OpenAI는 사용자가 사이트를 들어가는 수고까지 덜어주었다는 점에서 편리성을 압도적으로 높였다고 생각을 합니다. 아마 유료구독자에 한해서 구글 렌즈 서비스보다 ChatGPT의 사용이 더욱 많아질 거로 보입니다. 

 

출처: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak#OpenAI

 

ChatGPT can now see, hear, and speak

We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

openai.com

 

 

반응형