Claude와 몇 달간 씨름한 뒤 Codex는 바이브 코더의 꿈처럼 느껴짐
배경
3개월간 /Anthropic으로 코딩했지만 규모 작업에서 신뢰성이 낮아져 별도 감시 워크플로가 필요해짐4.7 시기에는 실제 구현이 약 40%인데 완료됐다고 환각하거나 / 주변에서 과도한 자신감을 보임Max 비용에도 생산성보다 토큰 소비와 감독 부담이 더 커졌고, 5월 12일 + Codex로 Claude와 몇 달간 씨름한 뒤 Codex는 바이브 코더의 꿈처럼 느껴짐 () by GN⁺ 5일전 | ★ | 댓글 9개 3개월간 /Anthropic으로 코딩했지만 규모 작업에서 신뢰성이 낮아져 별도 감시 워크플로가 필요해짐 시기에는 실제 구현이 약 40%인데 완료됐다고 환각하거나 / 주변에서 과도한 자신감을 보임 비용에도 생산성보다 토큰 소비와 감독 부담이 더 커졌고, 5월 12일 + Codex로 전환함 Codex는 과도한 프롬프트 없이 인접 코드를 더 잘 이해하고 회귀를 잡아 / 루프와 대규모 리팩터링이 관리 가능해짐 마이그레이션은 → 이동과 유지 정도로 끝났고, 해당 워크플로에서는 되돌아갈 생각이 없음 Claude에서 Codex로 전환한 뒤 달라진 개발 흐름 지난 3개월 동안 주로 /Anthropic으로 코딩했으며, 출시 당시에는 아키텍처 이해, 큰 컨텍스트 처리, 빠른 기능 구현이 강점으로 다가옴 시간이 지나며 규모 작업에서 신뢰성이 낮아졌고, 모델을 감시하기 위한 별도 워크플로가 필요해짐 인접 파일 회귀를 확인하는 여러 에이전트 주요 커밋마다 붙는 “ ” 에이전트 구현 드리프트와 미완성 구현을 확인하는 지속 검증 모델이 완료됐다고 자신 있게 말한 작업을 잡아내는 / 파이프라인 시기에는 개인 워크플로에서 문제가 더 커짐 실제 구현은 약 40% 수준인데 기능이 완료됐다고 환각함 / 주변에서 근거 없는 자신감을 보임 현실적으로 가능한 변경에도 “별도 세
핵심 관찰
션이 필요하다”거나 과도한 일정을 추정하는 회피 행동이 나타남 비용을 내고 있었지만 생산성 향상보다 토큰 소비 증가와 감독 부담 증가가 더 크게 다가옴 결국 5월 12일에 + Codex로 전환했고, AI 코딩이 몇 달 만에 스트레스보다 편안함에 가까워짐 + Codex에서 체감한 장점 Codex는 과도한 프롬프트 없이도 인접 코드를 잘 이해하고, 회귀를 더 잘 잡아냄 / 피드백 루프가 더 빡빡하게 작동하고, 대규모 리팩터링도 실제로 관리 가능해짐 인프라 결정과 아키텍처 변경이 조각난 느낌보다 일관된 방향으로 이어지고, 완료된 척하기보다 실제로 작업을 끝내는 쪽에 가까움 /fast는 주간 사용량을 빠르게 소진할 것 같아 대부분 피하지만, /xhigh만으로도 생산성 향상이 컸음 전체 저장소 zip을 thinking에 넣으면 다른 모델들이 반복해서 실패한 문제를 해결하는 데 도움이 됨 마이그레이션도 큰 마찰이 없었음 md가 md로 옮겨짐 hooks가 그대로 이어짐 전체 워크플로는 거의 바꿀 필요가 없었음 모두가 즉시 옮겨야 한다는 뜻은 아니지만, 해당 워크플로에서는 당분간 되돌아갈 생각이 없음 함께 보면 좋은 글 (~100시간) vs. (~20시간) 비교 w/ Claude에서 발표한 모든 것들 Claude로 지난 몇 주간 코딩하며 얻은 몇 가지 단상 ‘구독형’ 요금제가 API보다 최대 36배 저렴한 이유와 ‘ 5x’가 진짜 최적 구간인 이유 및 설정 변경으로 토큰을 절약하는 방법 인증 이메일 클릭후 다시 체크박스를 눌러주세요 어느 순간 부터 가 여러 면에서 월등한 것 같습니다. 답변달기▲ 4일전 [-] 저만 자꾸 구독을 돌아가면서 하게 되나요? ㅋㅋㅋ 최강자가 자꾸 바뀌네요 ㅋㅋㅋㅋ 근데 이거 레딧의 글이라서 조금 감안해서 볼 필요가 있습니다. 레딧
실무적 함의
은 서브레딧마다 빨아주는(?)게 엄청 차이가 심하더라고요. 답변달기▲ 4일전 [-] 예전에 쓸 때에는 여러 모델을 번갈아 사용했었는데, 5 부터 모델은 상대적으로 굉장히 신중하면서도 부지런한 느낌이 있습니다. 답변달기▲ 4일전 [-] 저도 codex가 더 토큰도 넉넉하고 claude가 짠 계획이나 코드에 결함을 잘 찾아내서 아예 갈아탈 생각으로 추가 결제 했었습니다. 아직 이 믿음을 가지고 있지만 claude를 완전히 버리지도 못했습니다. codex를 메인으로 쓰니까 이젠 claude가 codex의 계획이나 코드에서 결함 찾더라고요. 답변달기▲ 5일전 [-] 전 계속 Codex가 메인이었는데, 요즘 점점 더 똑똑해지는거 같아요 방금 겪은건데, 이제 알아서 자동화도 잘 거네요. 관련해서 뭔가 설정 조정을 했더니, 3일후에 체크하겠다고 지가 4320분 후에 동작하는 타이머를 자동으로 세팅해둡니다. 맥용 코덱스 앱이 너무 편해요. 이제 모바일도 잘되어서 더 많이 일하게 될듯 답변달기▲ 5일전 [-] 가 왕좌였는데, 오면서 Codex가 탑으로 간것 같네요. 둘 다 사용중인데, 요즘 는 거의 안 씁니다. Codex가 더 잘하는것 같기도 하고, 결정적으로 토큰이 원체 줄지가 않습니다. 다음달에는 아직 왕좌를 차지 못해본 제미나이 인가요? 답변달기▲ 5일전 [-] "실제 구현이 약 40%인데 완료됐다고 환각하거나 / 주변에서 과도한 자신감을 보임" 진짜 완수 수준에 대한 환각이 너무 빡치고 공감되는 부분 답변달기▲GN⁺ 5일전 [-] 의견들 AI 도구는 좋아하는 스포츠 팀 고르듯 한쪽만 응원할 일이 아님. 둘 다, 가능하면 전부 익혀두고 이번 주에 가장 잘 맞는 걸 쓰면 됨 다음 달에는 달라질 수 있음. 나는 구독을 두 개 쓰지만, 모두가 그렇게 할 수
정리 및 전망
있는 건 아니라는 점도 알고 있음 지금은 정말 그런 분위기지만, 대체로 누군가가 다른 선택을 하면 마치 내가 틀렸다는 말을 들은 것처럼 느끼는 인간의 성향 때문이라고 봄 도구들은 다 괜찮고, 어떤 사람은 한쪽에서 더 좋은 결과를 얻기도 하며, 말한 것처럼 다음 주에는 완전히 달라질 수도 있음 나도 지금 내게 잘 맞는 쪽이면 누구든 상관없고, 계속 테스트하고 계속 실험하는 편임 맞음. 모델은 계속 변하는 중임. 오늘은 , 내일은 , 다시 , 다음 주에는 중국의 새 도전자, 다음 달에는 Google이 정신 차릴 수도 있음. 계속 반복됨 일주일 정도 Codex와 Gemini를 만져봤는데, 지금까지는 Codex가 나한테 가장 잘 맞음 다만 Kinguin에서 18개월 프리미엄 15€ 쿠폰을 찾아 Gemini도 쓰고 있어서, 할당량에 걸리면 일부 작업은 Gemini로 넘김 4.7은 유용하고 생산적인 척하는 데, 그리고 보여주기식 수행에 초점이 맞춰진 느낌임 Codex는 실제로 일을 해냄 작업 흐름을 조금 더 공유해줄 수 있으면 좋겠음. 무엇을 어떻게 하는지 배우고 따라 해보고 싶음 왜 전체 저장소를 GPT에 넣는지, 어떤 기술과 책을 쓰는지도 궁금함 나는 프롬프트를 넣고 Codex가 끝나길 기다린 다음, 예전에는 스스로 했던 주변의 명백한 작업을 했는지 다시 물어보게 됨. 그러면 그제야 처리하고, 이후 /review와 수동 테스트에 시간을 쓰고, 다시 작은 작업 단위로 넘어감. 큰 기능에는 plan을 쓰고, 확장도 쓰며, 5.4와 둘 다 써봤지만 전자가 더 맞는 것 같음 여기서 OpenAI가 아닌 모델은 어떻게 사용할 수 있음? Claude의 문제는 Codex처럼 계속 실행되지 않는다는 점임. Claude가 더 나을 수도 있지만, Codex는 작업을 끝
원문: GeekNews
Source context
원문 링크와 함께 맥락을 비교해볼 수 있습니다.
이 글은 원문을 그대로 옮기기보다 안똔AI 관점에서 필요한 맥락을 다시 정리합니다.
자주 묻는 질문
Q. 핵심 요약
3개월간 /Anthropic으로 코딩했지만 규모 작업에서 신뢰성이 낮아져 별도 감시 워크플로가 필요해짐4.7 시기에는 실제 구현이 약 40%인데 완료됐다고 환각하거나 / 주변에서 과도한 자신감을 보임Max 비용에도 생산성보다 토큰 소비와 감독 부담이 더 커졌고, 5월 12일 + Codex로 Claude와 몇 달간 씨름한 뒤 Codex는 바이브 코더의 꿈처럼 느껴짐 () by GN⁺ 5일전 | ★ | 댓글 9개 3개월간 /Anthropic으로 코딩했지만 규모 작업에서 신뢰성이 낮아져 별도 감시 워크플로가 필요해짐 시기에는 실제 구현이
Q. 실무적 시사점
은 서브레딧마다 빨아주는(?)게 엄청 차이가 심하더라고요. 답변달기▲ 4일전 [-] 예전에 쓸 때에는 여러 모델을 번갈아 사용했었는데, 5 부터 모델은 상대적으로 굉장히 신중하면서도 부지런한 느낌이 있습니다. 답변달기▲ 4일전 [-] 저도 codex가 더 토큰도 넉넉하고 claude가 짠 계획이나 코드에 결함을 잘 찾아내서 아예 갈아탈 생각으로 추가 결제 했었습니다. 아직 이 믿음을 가지고 있지만 claude를 완전히 버리지도 못했습니다. codex를 메인으로 쓰니까 이젠 claude가 codex의 계획이나 코드에서 결함 찾더라고요
Q. 원문 출처
GeekNews
같이 읽을 글
같은 카테고리 안에서 이어서 보기 좋은 글만 추렸습니다.
프런티어 AI가 공개 CTF 형식을 깨뜨렸다
프런티어 AI가 공개 온라인 CTF( The ) 의 쉬운·중간 문제를 자동화하면서, 점수판이 인간 보안 실력을 깔끔하게 반영하지 못하게 됨문제는 AI 보조 자체가 아니라, 모델이 추론과 풀이 코드 작성까지 맡아 인간에게 플래그 복사만 남기는 수준에 도달했다는 점임 4.5와 이후 API로 프런티어 AI가 공개 CTF 형식을 깨뜨렸다 (.au)1...
Apple도 Google도 아닌 스마트폰은 어디서 살 수 있나
캠페인은 년 9월부터 미등록 개발자의 앱이 전 세계 기기에서 차단될 수 있다고 비판함 없는 스마트폰은 de- 와 비 OS로 나뉘며, 앱 호환성은 전자가 유지하기 쉬움, , , 는 /e/OS, V 도 도 아닌 스마트폰은 어디서 살 수 있나 (.com)1P by GN⁺ 5일전 | ★ | 댓글 1개 캠페인은 년 9월부터 미등록 개발자의 ...
Stripe Link CLI로 에이전트 결제 시대가 열린다
Stripe Link CLI는 에이전트가 일회용 결제 자격증명을 발급받아 사용자를 대신 결제하도록 설계됐다. 승인 흐름, 토큰 유형, 출력 파일 보호, 타임아웃과 재시도 정책을 중심으로 도입 전 점검할 항목을 정리합니다.