20.7 AGI로 가는 길과 World Models

AGI로 가는 길은 하나의 정답이 정해진 로드맵이 아닙니다. 현재의 language model이 무엇을 놓치고 있는지, 그리고 어떤 부족분이 가장 중요한지에 대한 분야 전체의 논쟁에 가깝습니다. 그중 하나의 영향력 있는 관점은, 아무리 크게 scale한 next-token prediction만으로는 충분하지 않을 수 있다는 주장입니다. 이 관점에서는 미래 시스템이 시간이 지나면서 행동이 환경을 어떻게 바꾸는지에 대한 더 풍부한 내부 모델도 필요하다고 봅니다.

바로 이 지점에서 world model 이라는 개념이 유용해집니다. world model은 단순히 그럴듯한 출력을 생성하는 시스템이 아니라, 어떤 환경이 다양한 행동이나 조건 아래에서 어떻게 변할지 예측할 수 있을 만큼의 구조를 학습하려는 시스템이라는 뜻에 가깝습니다.

1. 왜 world-model 아이디어가 매력적인가

language model은 어떤 상황을 유창하게 설명할 수 있어도, 그 상황을 실제로 시뮬레이션하는 것은 아닐 수 있습니다. 그래서 많은 연구자들이 world-model 프레이밍을 꺼내 듭니다.

짧은 비유로 보면:

대형 언어 모델은 수많은 대본을 본 즉흥 연기자에 가까울 수 있습니다
world model은 결과를 앞으로 굴려 보며 시뮬레이션하는 내부 엔진에 더 가깝습니다

이 비유가 완벽한 것은 아니지만, 핵심 직관은 잘 보여 줍니다. 유창함과 시뮬레이션은 겹치는 부분이 있어도 완전히 같은 것은 아닙니다.

2. JEPA: 영향력 있는 대안적 프레이밍

Yann LeCun의 Joint Embedding Predictive Architecture (JEPA) 는 이런 관점을 대표적으로 보여 주는 예입니다 [1]. 핵심은 모든 저수준 세부사항을 그대로 복원하려 하기보다, representation space 에서 예측한다는 점입니다.

즉, 다음 픽셀이나 다음 토큰을 정확히 맞히도록 강제하는 대신, 미래 예측에 중요한 압축 표현을 학습하게 하려는 것입니다. 동기는 분명합니다. 어떤 세부사항은 본질적으로 잡음에 가깝고, 더 고수준의 구조가 계획과 이해를 지탱할 수 있기 때문입니다.

import torch
import torch.nn as nn
import torch.nn.functional as F

class JEPACore(nn.Module):
    def __init__(self, input_dim=1024, hidden_dim=512, rep_dim=256):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, rep_dim)
        )
        self.predictor = nn.Sequential(
            nn.Linear(rep_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, rep_dim)
        )

    def forward(self, x, y):
        rep_x = self.encoder(x)
        rep_y = self.encoder(y).detach()
        pred_rep_y = self.predictor(rep_x)
        return F.mse_loss(pred_rep_y, rep_y)

이 예제는 교육용입니다. 실제 시스템은 훨씬 더 복잡한 구조가 필요하지만, 학습 목표를 표면적 복원이 아니라 잠재 표현으로 둘 수 있다는 점을 이해하는 데는 충분합니다.

3. World model의 계보: 게임, 로봇, 비디오, 언어

World model이라는 표현은 새 유행어처럼 들리지만, 아이디어 자체는 오래되었습니다. model-based reinforcement learning에서는 에이전트가 환경의 동역학 $p(s_{t+1} \mid s_t, a_t)$ 를 학습하고, 그 모델 안에서 행동을 미리 굴려 보는 방식을 사용해 왔습니다. Ha와 Schmidhuber의 World Models [2], Dreamer 계열 [3] 은 이런 흐름의 대표적인 예입니다.

최근의 차이는 스케일과 모달리티입니다. 과거의 world model은 특정 게임이나 시뮬레이터 안에서 동작하는 경우가 많았습니다. 최신 연구는 텍스트, 이미지, 비디오, action, physical interaction을 하나의 거대한 예측 문제로 묶으려 합니다. 즉, world model은 단순히 “다음 프레임 생성기”가 아니라, 행동 조건부 미래 예측(action-conditioned prediction) 과 계획(planning) 을 위한 내부 시뮬레이터가 되어야 합니다.

Genie 3: 구체적인 world-model 사례

Google DeepMind는 Genie 3 를 표준적인 text-only language model이 아니라 general-purpose world model로 소개합니다 [4]. DeepMind의 공식 설명에 따르면, Genie 3는 text prompt로 photorealistic interactive environment를 생성하고, 720p 해상도에서 20-24fps 수준의 실시간 상호작용을 지원하며, 몇 분 동안 환경 일관성을 유지하도록 설계되었습니다. 2026년에는 Project Genie 형태로 미국 Google AI Ultra 사용자를 대상으로 실험적 접근도 시작되었습니다 [5].

이 설명이 중요한 이유는 모델을 one-shot video generation이 아니라 simulation과 interaction의 관점에서 위치시킨다는 점입니다. 사용자의 action이 세계를 바꾸고, 모델은 그 변화가 다음 순간에 어떤 관측으로 이어질지 예측합니다. 물론 이것이 곧 “world model이 AGI의 유일한 길”이라는 뜻은 아닙니다. 다만 frontier lab이 실제로 world model이라는 용어를 어떤 의미로 쓰는지 보여 주는 구체적인 사례로는 충분합니다.

World model이 LLM과 다른 질문

LLM은 주로 $p(\text{text}_{t+1} \mid \text{text}_{\le t})$ 를 모델링합니다. World model은 더 넓은 조건부 예측을 요구합니다.

p(o_{t+1:t+k}, r_{t+1:t+k} \mid o_{\le t}, a_{t:t+k}, g)

여기서 $o$ 는 관측(observation), $a$ 는 행동(action), $r$ 은 보상이나 성공 신호, $g$ 는 목표(goal)입니다. 중요한 차이는 action입니다. World model은 “무엇이 일어날 것인가”뿐 아니라 “내가 이렇게 행동하면 무엇이 달라질 것인가”를 배워야 합니다.

4. AGI 논의에서 빠지지 않는 네 가지 축

AGI로 가는 길을 하나의 아키텍처로 정리하는 것은 성급합니다. 하지만 최근 연구와 제품 흐름을 보면 반복해서 등장하는 축은 있습니다.

4.1 Scale과 test-time compute

사전학습 scale은 여전히 중요하지만, 최근에는 test-time compute 의 역할이 커졌습니다. 모델이 한 번에 답을 내는 대신, 여러 후보를 만들고, 검증하고, 도구를 쓰고, 반성하고, 다시 시도하는 방식입니다. 코딩 에이전트, 수학 추론 모델, 검색 기반 agent가 모두 이 방향을 씁니다.

실무적으로는 모델 파라미터 수만 볼 것이 아니라, “한 문제에 얼마만큼의 추론 예산을 쓸 것인가”를 설계해야 합니다. 고객지원 챗봇은 1초 안에 답해야 하지만, 보안 코드 리뷰나 복잡한 데이터 분석은 2분을 써도 괜찮을 수 있습니다.

4.2 Tool use와 verifiable reasoning

미래 모델은 모든 것을 가중치 안에서 해결하지 않을 가능성이 큽니다. 계산은 Python에게, 검색은 DB에게, 형식 검증은 parser에게, 코드 검증은 test runner에게 맡기는 쪽이 더 안전하고 정확합니다. 중요한 것은 모델이 도구를 호출하는 능력뿐 아니라, 도구 결과를 신뢰할지 재검증할지 판단하는 능력입니다.

4.3 Embodiment와 world modeling

로봇, 자율주행, 게임 에이전트, 가상 환경 학습에서는 텍스트 설명만으로 충분하지 않습니다. 행동이 환경을 바꾸고, 그 결과가 다시 다음 행동의 조건이 됩니다. 여기서 world model은 planning과 data generation의 기반이 됩니다.

4.4 Alignment, oversight, governance

능력이 커질수록 평가와 통제가 더 중요해집니다. 18장에서 본 red teaming, scalable oversight, hallucination verification은 AGI 논의의 부록이 아니라 핵심입니다. 강한 world model이나 agent가 있더라도, 목표를 잘못 이해하거나 권한 경계를 넘으면 실제 피해가 커집니다.

5. AI engineer를 위한 World Model 설계 관점

World model을 연구 주제로만 보지 말고, 제품 설계 관점으로 나누면 훨씬 명확해집니다.

구성요소	질문	구현 예
State representation	세계의 현재 상태를 무엇으로 표현할까?	latent vector, scene graph, memory store, simulator state
Action conditioning	어떤 행동을 조건으로 받을까?	keyboard/mouse action, robot action, tool call, natural language command
Dynamics model	행동 후 세계가 어떻게 바뀔까?	video predictor, latent dynamics, environment simulator
Reward / objective	무엇이 좋은 상태인가?	task success signal, human preference, verifier score
Planner	어떤 행동 시퀀스를 고를까?	search, MPC, tree search, policy model, LLM agent
Verifier	시뮬레이션이 믿을 만한가?	consistency check, physical constraints, external tests

이 표를 보면 world model은 단일 모델 이름이 아니라 시스템 아키텍처입니다. LLM이 planner 역할을 하고, diffusion/video model이 dynamics를 맡고, symbolic verifier가 제약 조건을 확인하는 식의 하이브리드 구성이 자연스럽습니다.

작은 예: 업무 자동화 agent도 world model을 가진다

꼭 3D 환경만 world model이 아닙니다. 기업 업무 agent도 작은 world model을 가집니다.

현재 고객 티켓 상태
주문/환불 정책
사용 가능한 tool과 권한
이메일을 보내면 고객과 내부 시스템이 어떻게 바뀌는지
잘못된 action의 비용

이 관점으로 보면 agent 설계가 더 명확해집니다. 좋은 agent는 “그럴듯한 다음 답변”을 내는 모델이 아니라, action의 결과를 예측하고 위험한 action을 피하며 목표 상태로 이동하는 시스템입니다.

6. 무엇이 비교적 확립됐고, 무엇이 아직 추측에 가까운가?

비교적 확립된 것

world model은 robotics, simulated environment, model-based control에서 의미 있는 연구 방향이다
정확한 표면 복원보다 representation learning이 더 적절한 과업이 실제로 존재한다

떠오르는 것

generation, simulation, agent training loop를 결합한 대형 multimodal system
더 강한 에이전트를 훈련하기 위한 simulated world의 활용
test-time compute, tool use, verifier, memory를 결합한 agentic workflow
text-only LLM과 video/world model의 결합

여전히 추측에 가까운 것

world model이 현재 LLM에 빠진 결정적인 한 가지 요소라는 주장
특정 아키텍처 하나가 이미 AGI의 길을 보여 줬다는 주장
scaling만으로 모든 planning/grounding 문제가 자연스럽게 해결된다는 주장
시뮬레이션 환경에서 잘한 agent가 현실 세계에서도 같은 방식으로 안전하게 일반화된다는 주장

이 구분은 톤에서 중요합니다. 아이디어 자체는 중요하지만, 결과는 아직 열려 있습니다.

7. Practical Roadmap: 지금 팀이 해볼 수 있는 것

AGI를 직접 만들지 않더라도, world-model 관점은 AI 제품을 더 견고하게 만드는 데 도움이 됩니다.

상태를 명시하라: agent가 암묵적으로 대화 기록만 보게 하지 말고, 현재 작업 상태, 완료 조건, 남은 권한, 위험 플래그를 구조화합니다.
행동 전 예측을 요구하라: tool call 전에 “이 action이 어떤 상태 변화를 만들 것인가”를 모델이 짧게 쓰게 합니다.
실행 후 관측을 업데이트하라: tool result를 단순 텍스트로 붙이지 말고 state store에 반영합니다.
시뮬레이션 가능한 것은 먼저 시뮬레이션하라: SQL은 dry-run, 결제는 preview, 이메일은 draft, 코드 수정은 test sandbox에서 먼저 실행합니다.
planner와 executor를 분리하라: 고위험 action은 planner 모델의 제안만으로 실행하지 말고, executor policy와 권한 시스템을 따로 둡니다.
counterfactual eval을 만들라: “이 tool 결과가 실패했다면?”, “검색 문서가 악성이라면?”, “사용자가 중간에 목표를 바꾸면?” 같은 케이스를 평가셋에 넣습니다.

이런 설계는 거창한 AGI 연구가 아니라, 오늘의 엔터프라이즈 AI agent를 안전하게 만드는 실용적인 engineering입니다.

8. Practical Takeaway

world-model 논의의 가치는 AGI 논쟁을 끝낸다는 데 있지 않습니다. 오히려 질문을 더 날카롭게 만든다는 데 있습니다. 현재 시스템이 유창하지만 취약하다면, 더 풍부한 시뮬레이션, environment modeling, action-conditioned prediction이 다음 탐색 지점이 되는 것은 충분히 자연스럽습니다. 다만 그것이 충분조건인지 여부는 아직 해결되지 않았습니다.

Quizzes

Quiz 1: 연구자들이 모든 진보를 단순한 더 큰 language modeling으로 보지 않고 “world model”이라는 표현을 쓰는 이유는 무엇인가요?

이 용어가 단순히 그럴듯한 시퀀스를 생성하는 것을 넘어, 특히 행동 아래에서 환경이 어떻게 변하는지 예측할 수 있을 만큼의 구조를 학습하는 목표를 강조하기 때문입니다.

Quiz 2: JEPA식 예측의 핵심 직관은 무엇인가요?

모든 저수준 세부사항을 복원하려 하기보다 representation space에서 예측함으로써, 계획과 이해에 더 중요한 압축 구조를 학습하려는 것입니다.

Quiz 3: Google DeepMind의 공개 설명 기준으로 Genie 3가 world-model 논의에서 의미 있는 이유는 무엇인가요?

text prompt로 interactive environment를 생성하고 일정 시간 유지하는 시스템으로 소개되기 때문입니다. 이는 one-shot generation만이 아니라 simulation의 성격을 띱니다.

Quiz 4: AGI 논의에서 비교적 확립된 주장과 추측에 가까운 주장을 분리하는 것이 왜 중요한가요?

실제 기술 진전과 강한 전망이 뒤섞여 있기 때문입니다. 이를 구분하지 않으면 불확실한 아이디어가 이미 정착한 사실처럼 들릴 수 있습니다.

Quiz 5: 업무 자동화 agent를 world-model 관점으로 설계하면 어떤 점이 달라지나요?

agent를 단순한 답변 생성기가 아니라 상태를 업데이트하고 action의 결과를 예측하는 시스템으로 보게 됩니다. 따라서 현재 작업 상태, tool 권한, 예상 상태 변화, 실행 후 관측, rollback 조건을 명시적으로 설계하게 되어 더 안전하고 검증 가능한 workflow를 만들 수 있습니다.

References

LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. arXiv:2206.14176.
Ha, D., & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
Hafner, D., et al. (2020). Dream to Control: Learning Behaviors by Latent Imagination. arXiv:1912.01603.
Google DeepMind. (2025). Genie 3: A New Frontier for World Models. Google DeepMind Blog, Model page.
Google. (2026). Project Genie: Experimenting with infinite, interactive worlds. Google Blog.