AI 에이전트 안정성 확보하기 — production 배포 전 반드시 처리해야 할 5가지
LLMMixer라는 AI workflow orchestration 도구를 production 레벨로 끌어올리는 작업을 했다. 총 5개 커밋으로 63개 파일을 수정하며 7000여 줄을 추가했는데, 대부분이 안정성 확보를 위한 작업이었다. 이 과정에서 AI 에이전트를 실제 서비스에 배포할 때 놓치기 쉬운 함정들과 그 해결 방법을 정리한다. 배경: 무엇을 ...

Source: DEV Community
LLMMixer라는 AI workflow orchestration 도구를 production 레벨로 끌어올리는 작업을 했다. 총 5개 커밋으로 63개 파일을 수정하며 7000여 줄을 추가했는데, 대부분이 안정성 확보를 위한 작업이었다. 이 과정에서 AI 에이전트를 실제 서비스에 배포할 때 놓치기 쉬운 함정들과 그 해결 방법을 정리한다. 배경: 무엇을 만들고 있는가 LLMMixer는 Claude, GPT, Gemini 같은 여러 LLM을 workflow 형태로 orchestrate하는 도구다. 사용자가 복잡한 작업을 요청하면 이를 여러 단계로 분해해서 각각 다른 모델에게 시키고, 결과를 취합해서 최종 결과물을 만든다. v0.3에서는 interactive CLI 지원, 다중 세션 관리, real-time SSE 스트리밍을 추가했다. 문제는 개발 환경에서는 잘 돌아가던 것들이 production에서는 race condition, memory leak, session corruption 같은 문제를 일으킨다는 것이었다. interactive CLI 구현 — node-pty lazy loading 전략 AI 에이전트가 CLI 명령을 실행해야 하는 경우가 많다. git commit, npm install, docker build 같은 작업들 말이다. 기존엔 child_process.spawn을 썼는데 interactive 명령어들이 제대로 동작하지 않았다. 프롬프팅 전략 이 문제를 AI에게 상담할 때 핵심은 "제약 조건을 명확히 하는 것"이었다. "Node.js에서 interactive CLI 명령어를 실행해야 한다. 요구사항: Docker container 환경에서 실행 (Alpine Linux) Production build에서 native dependency 설치 불가 TTY가 없는 환경에서도 fallback 필요 Memory leak 방지 필수 기존 child_process.spawn 코드와 호환성 유지 node-pty vs spawn 비교하고, condition