Rich Sutton의 AI 창의성과 발견
핵심 요약
지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음 인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴 소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습… Rich Sutton의 AI 창의성과 발견 (twitter.com/RichardSSutton)4P by GN⁺ 19시간전 | ★ favorite | 댓글 1개 지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음 인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴 소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습 자료와 얼마나 가까운지 알기 어렵고, 무작위성은 새로움을 만들지만 평가 없이는 좋은 발견이 되지 못함 AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, RL-Lyft 같은 시스템은 평가와 선택적 보존을 통해 새롭고 좋은 결과를 찾음 완전한 AI 과학자를 원한다면 명시적 목표를 공유해 AI가 만들고 평가하고 발견하도록 해야 하며, 창의성과 발견의 자동화가 필요함 생성 AI의 한계와 유용성 생성 AI는 대량의 예시를 받아 사람처럼 텍스트를 만들거나, 예술가·자연처럼 이미지를 만들거나, 인터넷 영상처럼 비디오를 만드는 모방 모델임 생성 AI는 매우 유용할 수 있지만, “좋은 부분은 새롭지 않고 새로운 부분은 좋지 않다”는 오래된 농담의 평가가 큰 부분에 적용됨 인터넷에서 답을 찾거나 문서를 요약할 때는 AI가 새로울 필요가 없고, 답의 품질은 문서 작성자나 인터넷 글 같은 원천 자료에서 나옴 AI 답변이 원천 자료를 넘어 무언가를 더하면 그것이 환각이며, 대부분의 경우 사용자는 AI가 지어내는 것을 원하지 않음 새로움, 무작위성, 평가의 문제 사용자가 사실이나 현실이 아니라 소설과 오락을 원할 때는 새로움이 예외적으로 필요함 아이를 위한 잠자리 이야기나 기존 인터넷 이미지와 다르면서도 그 기반을 가진 이미지는 생성 AI에 요청할 수 있음 인터넷이 너무 크고 가능한 원천이 너무 많기 때문에 AI의 이야기, 시, 이미지가 실제로 얼마나 창의적인지 실용적으로 알기 어려움 생성 AI의 처리는 일부 확률적이어서 매 결정이 여러 방향으로 갈 수 있고, 매번 다른 궤적을 만들 수 있음 궤적이 무작위에 기반하면 새롭고, 학습 데이터에 기반하면 데이터의 품질 때문에 좋을 수 있지만, 동시에 새롭고 좋지는 못함 과학·수학에 필요한 발견 생성 AI가 동시에 좋고 새롭지 못해도 대부분의 용도에서는 치명적 문제가 아니며, 빠르고 싸고 작고 맞춤화 가능하고 복제 가능하다면 변혁적 기술이 될 수 있음 과학과 수학에서는 단순 모방 AI만으로 충분하지 않으며, 진짜 창의성과 발견이 필요함 AlphaGo의 37수, AlphaZero의 독창적인 체스 스타일, GT-Sophy의 시뮬레이션 레이싱 성능은 새롭고 좋은 것을 찾은 사례임 AlphaFold, AlphaProof, Claude-Code는 과학·수학·프로그래밍에서 실제 진전을 가져온 사례로 제시됨 RL-Lyft는 차량 호출 사업에서 승객에게 차량을 배정하는 방식을 최적화하는 시스템임 일부 언어 모델은 지도학습 기반 생성 AI를 넘어서는 방식으로 보강되어 있음 발견은 여러 가지를 시도하고, 무엇이 작동하는지 본 뒤, 가장 잘 작동한 것을 유지하는 과정임 자연선택에 의한 진화, 과학적 방법, 일상생활과 학습은 모두 시도하고 작동한 것을 기억하는 방식으로 움직임 심리학에서는 이를 도구적 학습 또는 조작적 조건형성이라고 부르고, 기계학습에서는 강화학습이라고 부름 계획과 조합 탐색에서도 “생성하고 시험하기”라는 발견의 아이디어가 작동함 발견의 핵심은 변이, 평가, 선택적 보존이라는 세 단계를 결합하는 것임 지도학습만으로는 런타임에 생성물을 평가할 방법이 없고, 평가가 없으면 선택적 보존도 없으며, 따라서 발견도 없음 새로움은 잠깐 나타날 수 있지만 그 가치가 인식되지 않으면 사라지고 잃어버리게 됨 평가, 목표, 자율성 사람이 생성 AI로 여러 그림을 만들고 마음에 드는 하나를 고르면, 인간+AI 시스템이 발견을 완성함 명확한 목표가 있을 때도 평가가 가능하며, 어떤 수는 체크메이트로 이어지고, 어떤 단계는 증명으로 이어지고, 어떤 행동은 높은 보상으로 이어짐 어떤 유전자형은 더 많은 복제를 만들고, 어떤 이론은 데이터를 더 잘 설명함 변이는 완전히 무작위일 필요는 없고, 좋은 과학자는 시험할 이론을 임의로 고르지 않음 답이 어디에 있는지 완전히 결정되어 있으면 발견이 아니며, 발견에는 불확실성이 필요함 역전파의 가중치 업데이트는 결정적이지만, 가중치는 작은 무작위 값으로 초기화되므로 변이가 존재함 무작위 초기화는 좋은 성능을 얻기 위해 제대로 수행되어야 하는 필요한 변이 형태임 역전파에서는 변이가 네트워크 초기화 때 한 번만 일어나므로 효과가 일시적이고, 나중에 네트워크가 학습 능력을 잃을 수 있음 “continual backpropagation”은 덜 사용되는 뉴런을 가끔 작은 무작위 가중치로 다시 초기화해 변이가 계속되고 가소성이 유지되도록 함 발견에는 사람이나 명시적 목표에서 오는 평가가 필요하며, 완전한 자율성은 명시적 목표가 평가를 제공할 때 가능함 AI 과학자의 전체 능력을 원한다면 목표를 공유해 AI가 만들고 평가하고 발견하며 목표 달성에 참여하도록 해야 함 함께 보면 좋은 글 AI 보조 코딩에 대해 틀리는 열두 가지 방식 Google의 생성형 AI 검색 기능 최적화 공식 가이드 Google 검색의 생성형 AI 기능을 위한 웹사이트 최적화 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 독일 판결, Google이 AI Overviews의 오답에 책임 있다고 선언 인증 이메일 클릭후 다시 체크박스를 눌러주세요 ▲GN⁺ 19시간전 [-]Hacker News 의견들 코딩처럼 가장 성공적인 응용은 순수한 LLM/생성 모델링의 결과가 아니라, 에이전트식 하네스로 루프를 닫은 데서 나옴 생성-테스트-선택적 개선 루프가 과학 작업의 핵심 양식이고, LLM + 검증 가능한 보상의 강화학습 + 컴파일러/터미널 실행 피드백은 이 과정을 상당히 잘 모사함 이는 현대 계산 시스템 위에 구현된 Fisher/Box 피드백 루프(https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...)에 가깝고, LLM은 그저 구성요소일 뿐임 Sutton이 지금의 전체 그림을 두고 말했으면 좋았을 텐데, LLM/역전파 쪽만 다룬 점이 아쉬움. 이런 루프가 발견을 적어도 부분적으로 자동화할 수 있는지 정말 궁금함 발견에는 더 많은 요소가 있고, 초기 작동 모델/가설이 어디서 오는지나 업데이트를 어떻게 고르는지는 여전히 불명확함.
기술적 특징
최근 Hanson의 Patterns of Discovery가 그 방향을 다룬다고 봤는데, 아직 읽지는 않았지만 기계적인 단서가 있는지 궁금함 초기 모델/가설이 어디서 오고 업데이트가 어떻게 선택되는지는 강화학습에서도 문제라서, 보통 먼저 지도학습으로 몇몇 궤적을 모방하게 가르친 뒤 강화학습으로 모델을 다듬음 강화학습만으로는 보상에 도달하기 어려워 순수 강화만으로 과제를 배우기 힘든 큰 문제가 있음. 인간도 책에서 배우는 감독 신호와 문제 풀이 탐색을 결합해 발견 문제를 풀며, 수학에 대한 초기 교육이 전혀 없는 사람은 아무리 똑똑해도 대단한 결과를 내기 어려움.
실용적 의미
부트스트랩은 과거에 이미 비용이 지불된 탐색이었음 하네스의 중요성에는 완전히 동의함 다만 진화 알고리즘이 겪었던 것과 같은 문제가 보임. 돈이 떨어질 때까지 후보 해법을 생성할 수는 있지만, 여전히 그 해법들을 평가해야 함.
향후 전망
적합도 함수가 필요하고, 이는 적어도 해법의 대략적인 형태를 알아야 한다는 뜻임. 더 개방적인 적합도 함수에 관한 작업을 아는 사람이 있다면 읽어보고 싶음 LLM에 비판적인 연구자들은 주로 LLM의 근본적인 수학적/구조적 성질을 문제 삼지만, 모델 주변에서 유용하게 만들기 위해 진행되는 공...
Source context
원문 링크와 함께 맥락을 비교해볼 수 있습니다.
이 글은 원문을 그대로 옮기기보다 안똔AI 관점에서 필요한 맥락을 다시 정리합니다.
자주 묻는 질문
Q. 이 글의 핵심 요지는 무엇인가?
지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음 인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴 소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습… Rich Sutton의 AI 창의성과 발견 (twitter.com/RichardSSutton)4P by GN⁺ 19시간전 | ★ favorite | 댓글 1개 ...
Q. 주요 기술적 차이점은 무엇인가?
최근 Hanson의 Patterns of Discovery가 그 방향을 다룬다고 봤는데, 아직 읽지는 않았지만 기계적인 단서가 있는지 궁금함 초기 모델/가설이 어디서 오고 업데이트가 어떻게 선택되는지는 강화학습에서도 문제라서, 보통 먼저 지도학습으로 몇몇 궤적을 모방하게 가르친 뒤 강화학습으로 모델을 다듬음 강화학습만으로는 보상에 도달하기 어려워 순수 강화만으로 과제를 배우기 힘든 큰 문제가 있음. 인간도 책에서 배우는 감독 신호와 문제 풀이 ...
Q. 현업에서의 활용 포인트는 무엇인가?
부트스트랩은 과거에 이미 비용이 지불된 탐색이었음 하네스의 중요성에는 완전히 동의함 다만 진화 알고리즘이 겪었던 것과 같은 문제가 보임. 돈이 떨어질 때까지 후보 해법을 생성할 수는 있지만, 여전히 그 해법들을 평가해야 함....
같이 읽을 글
같은 카테고리 안에서 이어서 보기 좋은 글만 추렸습니다.
pg_durable이 보여준 Postgres 내부 오케스트레이션, 재시도와 병렬 실행을 SQL로 다루는 방법
pg_durable은 PostgreSQL 내부에서 재시도, 스케줄링, 병렬 fan-out, 크래시 복구를 SQL 중심으로 처리하는 확장이다. 외부 워커와 보일러플레이트를 얼마나 줄이는지 기사 내용을 바탕으로 정리했다.
GOV.UK Pay의 결제 처리사 교체, Stripe에서 Adyen으로 넘어가며 바뀌는 것
영국 공공 결제 플랫폼 GOV.UK Pay가 다수 카드 결제 처리에서 Stripe 대신 Adyen을 선택했다. 계약 범위, 이전 대상, pay by bank 도입 효과를 기사 내용에 맞춰 정리했다.
ISS 공기 누출 수리 중 승무원 대피 태세 해제, NASA와 로스코스모스가 추가 원인 분석
국제우주정거장 러시아 구역 공기 누출 수리 중 드래건 우주선으로 이동했던 승무원들이 정상 임무로 복귀했다. 누출 위치, 수리 경과, 대피 절차의 의미를 기사 사실관계 중심으로 정리했다.
글에서 다 다루지 못한 부분은 워크숍에서 직접 이어갈 수 있습니다.
조직·팀 단위 AI 실무 강의나 워크숍이 필요하시면 메일로 문의해 주세요.