인공지능/활용

Codex 윈도우앱 사용후기

다시 개발 2026. 3. 11. 19:50

Codex 윈도우 앱이 출시되었습니다. 지금까지 맥에서만 사용할 수 있어서 윈도우 사용자로서 조금 아쉬웠습니다. CLI 환경이 아닌 앱 설치로 간단히 사용할 수 있을 것 같아 한번 사용해 보았습니다.

 

✔️ IT 경력 기준의 간단한 저의 소개

  • 경력이 있는 IT 개발자 입니다. 자바를 시작으로 해서 지금은 파이썬으로 개발을 하고 있습니다.
  • 바이브 코딩 경험은 아주 조금 있습니다. 최근 Claude Code로 웹페이지를 만들어 보고 화들짝 놀란 정도입니다.
  • 물론 AI를 통해 코딩 지원은 많이 받습니다. 하지만 모든 코드를 AI에게 맡긴 적은 없습니다.

✔️ 어떤 프로젝트?

  • OpenAI의 Realtime API의 버전이 업데이트되어서 새로운 버전을 활용한 간단한 앱을 만들어 보았습니다.
  • Codex를 통해서 바이브 코딩으로 AI에게 모든 코딩을 맡겼습니다.
  • OpenAI의 Realtime API는 공식 예제가 JavaScript/Node.js 중심으로 제공 되어있어 JavaScript/Node.js를 모르는 저는 어차피 바이브 코딩을 통해서 개발할 수 밖에 없었습니다.
  • 참고로 Realtime API의 첫번째 버전은 공식 Github 코드를 통해 예제를 구현한 바 있습니다. 추가로 업무 관련된 함수를 도구로 등록하여 실시간 음성으로 도구를 호출하였습니다.

Codex 설치

아래의 경로를 통해 Codex 윈도우 앱을 설치할 수 있습니다.

https://openai.com/ko-KR/codex/

 

설치 후에 앱을 실행하면 아래와 같은 화면이 나타납니다. 아래의 화면은 제가 프로젝트를 지정하고 어느 정도 개발이 진행된 상태입니다.

Codex를 통한 바이브 코딩

프로젝트 디렉토리를 지정하고 바이브 코딩을 시작하였습니다.

앞서 말씀드렸듯이 저는 바이브 코딩은 아주 초보단계 입니다. 먼저 요구사항을 정리하거나 등의 방식으로 접근하지 않고 바로 Codex에게 개발을 맡겼습니다. 사실 사전에 정리하는 방법을 몰라서 바로 맡겼습니다.

gpt-realtime-1.5
을 이용하여 실시간 으로 질문과 답을 하는 app을 만들어 줘

 

프로젝트 디렉토리에 파일들이 생성되었습니다. 제시해 준 실행 방법으로 앱을 실행하였습니다.

  • .env 파일에 OpenAI API 키를 입력하였습니다.
  • npm run dev
  • 브라우저에서 http://localhost:3000 접속

그럴듯한 화면이 나왔습니다. 하지만 아무런 반응이 없었습니다.

요청 해도 반응이 없어.

 

Codex가 이런 저런 설명을 해 주면서 코드를 수정하였습니다. 두번째 요청으로 AI가 답변을 정상적으로 하였습니다. 하지만 음성만 나오고 텍스트로는 답변이 보이지 않았습니다.

디자인을 예쁘게 변경해 줘
아래 사항도 수정해 줘

  • 시스템 로그를 설정을 통해 화면에 나타나게 해줘
  • AI 답변을 텍스트로 화면에 보이게 해줘.
  • 채팅(사용자 질문, AI 답변)으로 화면을 구성해 줘

 

위의 요청으로 채팅 환경으로 디자인이 깔끔하게 수정되었고 시스템 로그도 설정을 통해 화면에 나타나게 되었습니다. 하지만 AI 답변이 텍스트로 보이지 않았습니다.

AI 답변이 채팅창에 텍스트로 보이지 않아

 

AI 답변을 채팅창에 텍스트로 보이게 해 달라는 요청한 이후부터 제대로 개발이 되지 않았습니다.

  • 기존에 작동하던 기능이 작동하지 않는 경우가 발생했습니다.(음성 답변 안됨)
  • 새로운 오류가 발생했습니다.(작동자체가 안됨)

✔️ 코드를 검증하라는 요청을 했습니다.

앞으로는 코드를 수정하면 자체적으로 검토해 줘

자체 검토 결과:

node --check server.js 통과
node --check public/app.js 통과
핵심 동작 문자열(client_secrets, response.create, session.update, remoteAudio.play) 존재 확인

 

위와 같이 자체적으로 검토하면서 검토 결과를 알려 주었습니다. 하지만 그래도 문제가 깔끔하게 해결이 되지 않았습니다.

 

✔️ 시스템 로그나 화면을 캡쳐해서 요청을 해 보았습니다.

세션 시작에서 오류 발생

세션 시작 실패: Failed to create realtime client secret {"error":{"message":"Unknown parameter: 'session.modalities'.","type":"invalid_request_error","param":"session.modalities","code":"unknown_parameter"}}
...

 

오류 현상을 자연어로 설명하는 것보다 시스템 로그나 화면을 캡쳐해서 보여주는 것이 더 정확하게 문제를 해결하는 것 같았습니다.

 

✔️ 업무 관련 함수 추가

 

첫번째 버전에서 적용했던 업무 관련 함수를 도구로 등록해 달라고 요청하였습니다.

첫번째 앱의 코드(프롬프트와 함수)를 제공하면서 적용해 달라고 하였습니다. 큰 무리없이 도구가 등록되고 음성으로 도구를 호출하는 기능이 추가되었습니다.

  • 도구를 호출할 때 사용자 인증을 받는 기능이 자동으로 추가되었습니다.
  • 아무 이름만 입력하면 인증이 되는 것 같아 우선 제외하였습니다.

✔️ 이미지 업로드 기능 추가

 

이번 버전에서는 이미지를 업로드 하여 질문하는 기능을 추가해 보았습니다.

시스템 로그를 포함한 몇 번의 요청과 수정이 반복된 후에 이미지 업로드 기능이 추가되었습니다.

  • 이미지와 텍스트를 동시에 입력(모델에 전송)은 가능했습니다.
  • 하지만 이미지와 음성을 동시에 입력은 불가능했습니다. 짧게 고민하고 일단 접었습니다.
  • 이미지만 전송해도 AI가 답변을 하였습니다.

서버 배포 및 모바일 테스트

모바일에서 테스트를 하기 위해서는 HTTPS 설정(마이크 사용)이 되어야 했습니다. 서버를 설정하고 코드 배포하고 HTTPS 설정을 하였습니다.

드디어 모바일에서 접속하였습니다. 하지만 모바일에서 본격적으로 오류가 발생하기 시작하였습니다.

아래 2개의 오류를 근간으로 한 오류들이 계속 반복되었습니다.

  • 사용자 음성이 채팅창에 텍스트로 표시 되지 않았습니다.
  • AI 답변이 사용자 음성 입력으로 인식되었습니다. 로컬(PC)에서는 마이크와 헤드셋을 사용하여 음성이 분리되었지만 모바일에서는 스피커를 통해 나오는 AI 답변 음성을 사용자 입력 음성으로 인식해 버렸습니다.

✔️ OpenAI의 realtime 예제 github 주소를 제공하면서 최종 문제가 해결되었습니다.

 

해당 github의 예제는 모바일에서도 위의 2가지 문제가 발생하지 않았습니다.

https://github.com/openai/openai-realtime-agents.git
OpenAI realtime의 github 주소입니다.

  • 이 github의 설계 철학으로 전면적으로 새로 수정해 줘.

 

Codex가 코드를 수정하는데 많이 시간이 걸렸습니다. 새로운 방법으로 기능을 구현하는 것 같았습니다. 이 후 몇 번의 수정으로 모바일에서도 안정적으로 작동하게 되었습니다.

Codex를 통한 바이브 코딩 개발 과정에서 느낀 점

요청을 하고 AI가 코딩을 할 때까지 어느정도 기다려야 합니다. 요청에 따라 차이가 나지만 몇 분 정도 입니다. 다른 일을 하기엔 짧고, 마냥 기다리기엔 긴 애매한 시간이었습니다. 일의 흐름이 끊어지는 느낌이었습니다. 그 사이에 다른 곳으로 새고(SNS) 싶은 유혹이 강하게 발생하였습니다. 2가지 이상의 작업을 하면 어떨까 하는 생각도 들었습니다.

 

저는 JavaScript/Node.js 잘 모릅니다. 공식 문서를 통해 realtime API의 전체적인 개념만 파악하고 있고 첫번째 버전의 예제를 Github에서 다운받아 구현한 수준입니다. 하지만 바이브 코딩(Codex)를 통해 Realtime API를 활용한 간단한 앱을 만들 수 있었습니다.
신기하긴 했지만 이래도 되나 하는 생각이 강하게 들었습니다. 제가 코드를 열어보지 않고 있었던 것입니다. 물론 node.js를 몰라서 이기도 하겠지만 코드를 열어보지 않고 자연어로 계속 수정을 요청하고 있었습니다. 결과를 보고 수정사항을 파악하여 다시 요청하는 과정을 반복하고 있었습니다. 코드를 보지 않아도 되는 개발자가 된 것입니다. 음... 개발자라고 해도 되나요?

 

✔️ AI가 조금 더 일을 잘하게 하는 방법

 

제 경험으로는 2가지를 느꼈습니다.

  • 수정했다고 하지만 오류가 많았습니다. 수정후에 무조건 검토해 달라고 했더니 조금 나아졌습니다.
  • 시스템 로그 또는 화면을 캡쳐해서 보여주니 문제를 더 잘 인식하였습니다.

✔️ 최신 기술 또는 많이 구현되지 않은 형태의 앱

 

최신 기술 또는 많이 구현되지 않은 형태의 앱은 AI가 구현하는데 한계가 있는 것 같습니다.

  • Realtime API는 실시간 음성으로 AI와 대화하는 형태의 앱입니다. 최신 기술이기도 하고 많이 구현되지 않은 형태의 앱이기도 합니다.
  • 이건 바이브 코딩뿐만이 아닌 AI 웹 채팅에서도 제가 겪은 문제였습니다. AI 관련 최신 기술을 적용한 앱(예를 들어 AI Agent)을 개발할 때 AI는 제대로 된 코드를 생성하지 못 했습니다. 공식 문서의 가이드와 예제를 이해하고 AI에게 요청을 해야 했습니다.

✔️ 조심스러운 소감

  • 결국 프로그램 개념이 있어야 근본적인 문제를 해결 할 수 있는것 같습니다.
  • 제가 node.js를 모르고 openai realtime api를 제대로 이해하지 않고 개발 설계 없이 접근해서 쳇바퀴 돌듯 문제를 계속 반복하지 않았나 합니다.
  • 물론 일반적인 웹 페이지나 CRUD는 잘 만들어 낼 수 있을 것 같습니다. DB가 들어가면 어떻게 될지 모르겠습니다.
  • 다음에는 DB에 저장하는 일반적인 CRUD 앱을 개발해 보고 공유 하겠습니다.

기술요소에 대한 질문

프로그램이 어느 정도 안정되고 나서 기술요소에 대한 질문을 했습니다.

 

이런... realtime인데 음성을 서버에 보낸 뒤 텍스트로 변환해서 이걸 realtime 모델에 보내고 있었습니다. 제가 사용자 음성을 채팅창에 안정적으로 표시해 달라고 계속 요청해서 이 방법을 채택한 모양입니다.

  • 앞으로는 어떻게 구현할건지 반드시 확인해 봐야 겠습니다.
  • 아... 끝났다고 생각했는데(물론 제가 개발한것 보다 월등히 빨랐지만) 다시 개발해야 합니다. 여러분은 이런 실수가 없길 바라겠습니다.