4.5 다양한 LLM 아키텍처
이쯤 오면 아키텍처 논쟁은 끝났다고 느끼기 쉽습니다. decoder-only가 이겼고, 모두가 GPT를 조금씩 변형하는 정도라고 생각하기 쉽죠. 하지만 실제 엔지니어링은 그 지점에서 시작됩니다. 컨텍스트를 더 길게 가져가야 하고, 서빙 비용은 낮춰야 하고, 처리량은 높여야 하며, tool use나 reasoning 같은 능력도 챙겨야 하기 때문입니다.
교통수단에 비유하면 이해가 쉽습니다. 화물선, 경주용 자동차, 통근 열차는 모두 무언가를 이동시키지만 최적화 대상이 완전히 다릅니다. 현대 LLM도 비슷합니다. 모두 자기회귀적으로 텍스트를 생성하지만, KV cache 성장, attention 복잡도, routing 효율, 학습 안정성 중 무엇이 더 아픈 병목인지에 따라 내부 설계가 달라집니다.
이 절에서는 최신 모델 이름을 외우는 대신, 어떤 압력이 어떤 설계를 낳았는지를 먼저 보겠습니다.
아키텍처가 계속 갈라지는 이유
Chapter 3에서 본 표준 Transformer는 출발점입니다. 실제 시스템은 다음과 같은 압박을 반복해서 받습니다.
- 긴 컨텍스트에서는 full attention 비용이 급격히 커집니다.
- 자기회귀 서빙에서는 KV cache가 메모리와 대역폭을 압박합니다.
- dense FFN은 모델이 커질수록 비용이 빠르게 증가합니다.
- next-token prediction 하나만으로는 처리량이나 reasoning을 최적화하기 어려운 경우가 있습니다.
최근 아키텍처 변화의 대부분은 이 네 가지 병목에 대한 대응으로 이해할 수 있습니다.
1. 하이브리드 및 선형 어텐션 (Hybrid & Linear Attention)
표준 self-attention은 시퀀스 길이에 대해 제곱 비용이 들기 때문에, 컨텍스트가 길어질수록 부담이 커집니다. 그래서 최근에는 Hybrid Attention 스택이 자주 등장합니다.
핵심 아이디어는 간단합니다. 모든 레이어에 똑같이 비싼 full attention을 쓰지 말고, 일부 레이어만 강한 전역 상호작용을 담당하게 하고 나머지는 linear attention, local attention, state-space 계열 업데이트처럼 더 저렴한 메커니즘으로 대체하는 것입니다.
즉, 모든 레이어가 동일한 수준으로 “멀리 보고 정확하게 찾는” 일을 할 필요는 없다는 판단입니다.
최근 공개된 open-weight 모델들은 이 흐름을 꽤 선명하게 보여줍니다. MiniMax-Text-01은 7개의 Lightning Attention 레이어 뒤에 1개의 Softmax attention 레이어를 두는 hybrid stack에 MoE를 결합해 매우 긴 컨텍스트를 지원했습니다 [4]. Kimi Linear는 여기서 한 발 더 나아가 Kimi Delta Attention (KDA) 라는 gated-delta 계열 linear attention을 도입하고, 이를 global MLA layer와 3:1 비율로 섞었습니다. 모델 카드에서는 1M context에서 KV cache를 최대 75% 줄이고 decoding throughput을 최대 6배 높인다고 보고합니다 [5]. Qwen3.6-35B-A3B도 같은 방향을 더 작은 open-weight 패키지로 보여줍니다. 총 35B 파라미터 중 3B만 활성화하고, 3 x Gated DeltaNet + 1 x Gated Attention 패턴을 반복하며, 각 attention block 뒤에 MoE를 붙이고, multi-token prediction과 native 262K context를 제공합니다. YaRN 확장을 쓰면 약 1M token까지 늘릴 수 있습니다 [6]. 2026년 4월 open model로 공개된 Ling-2.6-flash도 같은 흐름의 최신 사례입니다. 기존 GQA 설계를 1:7 MLA + Lightning Linear hybrid로 바꾸고 highly sparse MoE와 결합해, 단순히 chain-of-thought를 더 길게 쓰는 대신 agent-style inference를 더 빠르고 토큰 효율적으로 만드는 쪽을 겨냥합니다 [7].
중요한 업데이트는 softmax attention이 사라졌다는 뜻이 아닙니다. 오히려 최근 패턴은 선택적 full attention 에 가깝습니다. 소수의 global attention layer는 고정밀 retrieval과 composition checkpoint로 남기고, 대부분의 장문 상태 전달은 linear attention layer가 맡는 식입니다. 그래서 hybrid linear attention은 이제 특이한 연구 아이디어라기보다, agentic workload와 long-context serving을 위한 실제 production architecture 후보로 보이기 시작했습니다.
2. KV Cache 압축과 메모리 친화적 어텐션
자기회귀 모델의 서빙 비용은 계산량만으로 설명되지 않습니다. 생성이 길어질수록 KV cache가 커지고, 이 캐시를 계속 읽고 쓰는 메모리 이동 비용이 매우 중요해집니다.
그래서 Multi-head Latent Attention (MLA) 같은 설계가 중요합니다. 큰 key/value 텐서를 그대로 저장하는 대신, 더 작은 latent representation으로 저장했다가 attention 계산 시 필요한 형태로 복원하는 방식입니다 [1]. 여기에 sparse 또는 local attention 패턴을 결합하면 메모리 사용량과 attention 연산량을 동시에 줄일 수 있습니다.
3. 피드포워드 스택의 MoE
또 다른 큰 레버는 feed-forward block입니다. dense FFN은 전체 파라미터를 항상 활성화하지만, Mixture of Experts (MoE) 는 토큰마다 일부 expert만 활성화합니다.
MoE의 매력은 분명합니다. dense 모델과 같은 비용을 모두 치르지 않으면서 총 용량은 크게 늘릴 수 있습니다. 다만 그 대가로 routing, load balancing, expert parallelism, 통신 오버헤드 같은 시스템 문제가 핵심 이슈로 올라옵니다. 다시 말해, 계산 비용 일부를 시스템 복잡도로 바꾸는 선택이라고 볼 수 있습니다.
4. 멀티 토큰 예측 (Multi-Token Prediction, MTP)
보통 언어 모델은 다음 토큰 하나만 예측하도록 학습됩니다. Multi-Token Prediction (MTP) 은 이 목표를 바꾸어, 여러 미래 위치를 한 번에 예측하게 합니다.
이 방식은 학습 효율을 높일 수 있고, 이후 추측 해독(speculative decoding) 같은 빠른 서빙 경로와도 잘 연결됩니다. 아키텍처는 레이어 구조만이 아니라 학습 목표까지 포함한다는 점을 보여주는 좋은 예입니다.
5. 광학적 컨텍스트 압축 (Optical Context Compression)
앞의 예시들은 토큰이 이미 Transformer 안에 들어온 뒤, 모델이 그 토큰을 어떻게 처리할지 바꿉니다. 그런데 최근에는 더 낯선 질문도 등장했습니다. 긴 텍스트 컨텍스트가 애초에 긴 1D token sequence로 모델에 들어가야만 할까요?
DeepSeek-OCR은 이 질문을 보여주는 좋은 사례입니다. 이름만 보면 단순히 “더 좋은 OCR”처럼 보이지만, 더 흥미로운 지점은 contexts optical compression 입니다. 텍스트가 많은 문서를 2D 시각 표현으로 매핑하고, page image를 적은 수의 vision token으로 인코딩한 뒤, language decoder가 그 내용을 복원하거나 추론하는 방식입니다 [3]. 텍스트가 빽빽한 한 페이지를 수천 개의 text token으로 넣는 대신, vision encoder를 통과시켜 더 적은 token budget으로 표현할 수 있다는 발상입니다.
직관은 어렵지 않습니다. 긴 문단을 스크린샷으로 찍으면 줄바꿈, 표, 수식, 공간적 배치가 하나의 압축된 물체처럼 보존됩니다. DeepSeek-OCR은 이 직관을 모델 pipeline으로 바꿉니다.
- 문서를 image-like 2D signal로 렌더링하거나 입력받습니다.
- vision encoder인 DeepEncoder가 page를 제한된 수의 vision token으로 압축합니다.
- DeepSeek3B-MoE-A570M language decoder가 압축된 표현을 디코딩합니다.
- OCR text, markdown, layout-aware output, document-grounded response를 생성합니다.
이 말은 시스템이 text를 버렸다는 뜻은 아닙니다. 출력은 여전히 text이고, decoder도 language model입니다. 달라지는 부분은 입력 경계입니다. text를 바로 token sequence로 넣기 전에, 광학적으로 압축할 수 있는 대상으로 다루는 것입니다.
실무적으로 중요한 값은 compression ratio입니다.
예를 들어 원래 2,000개의 text token을 먹는 문서를 200개의 vision token으로 표현할 수 있다면 입니다. DeepSeek-OCR 논문은 이 비율이 대략 미만일 때 OCR precision이 약 97% 수준을 유지하고, 근처에서는 약 60%까지 떨어진다고 보고합니다 [3]. 핵심은 바로 이 trade-off입니다. Optical compression은 context length를 벌어줄 수 있지만, text tokenization의 무손실 대체재는 아닙니다.
기술적으로 보면 이 접근은 부담의 일부를 sequence modeling에서 visual representation learning으로 옮깁니다. Encoder는 글자 모양, reading order, table structure, layout geometry를 보존하면서도 일반 OCR 또는 문서 파싱 pipeline보다 훨씬 적은 token을 만들어야 합니다. Decoder는 이 압축된 visual token을 다시 정확한 symbol이나 structured text로 바꿔야 합니다. 이것은 일반 image captioning과 다릅니다. 코드, 수식, 법률 문서, 표에서는 한 글자나 한 숫자 오류도 치명적일 수 있기 때문입니다.
더 깊은 함의는 “context length”가 더 이상 attention만의 문제가 아니라는 점입니다. Long-context system은 여러 층위에서 공략할 수 있습니다.
- hybrid linear attention으로 긴 token sequence 위의 attention을 더 싸게 만들기;
- generation 중 KV cache를 더 싸게 만들기;
- MoE로 computation을 sparse하게 routing하기;
- 여러 token을 한 번에 예측하거나 검증하기;
- 또는 입력 표현이 token sequence가 되기 전에 압축하기.
Optical context compression은 마지막 범주에 속합니다. 스캔 문서, PDF, 표, 영수증, 역사적 아카이브, layout-rich corpus에는 매력적입니다. 반면 source code patch, formal proof, 계약서, safety-critical numeric table처럼 정확한 byte-level fidelity가 중요한 workload에서는 더 조심스럽습니다. 실제 production system이라면 confidence scoring, text OCR로의 selective fallback, 원본 document image와의 verification을 함께 두는 편이 안전합니다.
최신 아키텍처를 비교하는 더 좋은 방법
개별 제품명을 외우기보다, 어떤 병목을 겨냥한 설계인지로 비교하는 편이 훨씬 오래 갑니다.
| 설계 압력 | 자주 쓰이는 대응 | 얻는 것 | 치르는 대가 |
|---|---|---|---|
| 긴 컨텍스트 | hybrid linear attention, local attention, sparse attention | 낮은 attention 비용 | 레이어별 동작이 덜 균일해지고 custom kernel 의존성이 커짐 |
| KV cache 증가 | GQA, MQA, MLA, sliding windows | 서빙 메모리와 대역폭 절감 | 구현이 더 특수해짐 |
| 거대한 파라미터 수 | MoE 레이어 | 추론 비용 대비 더 큰 용량 | routing과 load balancing 복잡도 |
| 디코딩 처리량 | MTP, speculative-friendly objective | 더 빠른 생성 경로 | 학습/서빙 협업 설계 필요 |
| 입력 컨텍스트 토큰 증가 | optical 2D mapping, vision-token compression | 큰 문서를 더 적은 context token으로 표현 | OCR 오류, layout 의존성, 검증 부담 |
| 장문 학습 안정성 | QK-Norm, RoPE 변형, windowing | 더 안정적인 최적화 | 추가 튜닝과 검증 필요 |
이 관점에서 보면 “최고의 현대 아키텍처 하나”를 찾기보다, 어떤 서비스 조건에 어떤 타협이 맞는지를 보는 편이 현실적입니다.
병목이 바뀌면 설계도 바뀐다
초기 Transformer 논의는 주로 파라미터 수와 benchmark 점수에 초점이 맞춰져 있었습니다. 하지만 production 환경은 다른 질문을 던졌습니다. “모델이 얼마나 똑똑한가?”만큼이나 “이 모델을 메모리 압박 없이, 지연 시간 안에, 예측 가능한 비용으로 돌릴 수 있는가?”가 중요해진 것입니다.
그래서 최신 아키텍처 연구는 보편적 승자를 찾는 경쟁이라기보다, 어떤 병목을 어떤 방식으로 우회할지에 대한 설계 탐색에 가깝습니다.
PyTorch 구현: 간략화된 MLA
하이브리드 어텐션이 주목받고 있어도, Multi-head Latent Attention (MLA) 는 서빙 병목을 아주 직관적으로 보여주는 예시입니다. 아래 간략화된 구현은 “저장할 것은 압축하고, 계산할 때만 복원한다”는 핵심 아이디어를 드러냅니다.
import torch
import torch.nn as nn
import torch.nn.functional as F
class SimpleLatentAttention(nn.Module):
def __init__(self, d_model, n_heads, d_head, d_latent):
super().__init__()
self.d_model = d_model
self.n_heads = n_heads
self.d_head = d_head
self.d_latent = d_latent # 압축된 KV의 차원
# 표준 Query 투영
self.q_proj = nn.Linear(d_model, n_heads * d_head)
# KV 압축: 입력을 더 작은 잠재 공간으로 투영
self.kv_compress = nn.Linear(d_model, d_latent)
# KV 복원: 잠재 공간에서 K와 V를 재구성
self.kv_decompress = nn.Linear(d_latent, n_heads * d_head * 2)
self.o_proj = nn.Linear(n_heads * d_head, d_model)
def forward(self, x):
batch_size, seq_len, _ = x.size()
# 1. Query 투영
q = self.q_proj(x).view(batch_size, seq_len, self.n_heads, self.d_head)
q = q.transpose(1, 2) # (B, H, S, d_head)
# 2. KV 압축
# 이 'latent' 벡터가 바로 KV Cache에 저장되는 대상입니다!
latent = self.kv_compress(x) # (B, S, d_latent)
# 3. 어텐션 연산을 위한 KV 복원
kv = self.kv_decompress(latent).view(batch_size, seq_len, self.n_heads, self.d_head, 2)
k = kv[..., 0].transpose(1, 2) # (B, H, S, d_head)
v = kv[..., 1].transpose(1, 2) # (B, H, S, d_head)
# 4. Scaled Dot-Product Attention
scores = torch.matmul(q, k.transpose(-2, -1)) / (self.d_head ** 0.5)
# 인과적 마스크 적용 (간략화)
mask = torch.tril(torch.ones(seq_len, seq_len, device=x.device))
scores = scores.masked_fill(mask == 0, float('-inf'))
attn = F.softmax(scores, dim=-1)
context = torch.matmul(attn, v) # (B, H, S, d_head)
context = context.transpose(1, 2).contiguous().view(batch_size, seq_len, -1)
return self.o_proj(context)
인터랙티브 시각화: 어텐션 마스크
이러한 다양한 아키텍처가 정보 흐름을 어떻게 제어하는지 더 잘 이해하기 위해 어텐션 마스크를 시각화해 보겠습니다. AI 전문가들은 마스크가 모델이 인코더(양방향), 디코더(인과적) 또는 Prefix-LM으로 작동하는지를 진정으로 정의하는 요소임을 알고 있습니다.
어텐션 마스크 시각화
아키텍처를 선택하여 어텐션 마스크 패턴을 확인하세요
Quizzes
Quiz 1: 왜 일부 모델은 모든 레이어에 full self-attention을 쓰지 않고 hybrid attention stack을 선택할까요?
full self-attention은 강력한 토큰 간 상호작용을 제공하지만, 긴 시퀀스에서는 비용이 큽니다. hybrid stack은 일부 레이어만 강한 전역 검색을 담당하게 하고, 나머지는 local, linear, state-space 계열처럼 더 저렴한 메커니즘으로 대체합니다. 즉, 표현력은 어느 정도 유지하면서 비용을 줄이기 위한 설계입니다.
Quiz 2: KV cache 압축과 sparse/local attention을 함께 쓰면 어떤 이점이 있나요?
두 기법이 줄이는 비용이 다르기 때문입니다. KV cache 압축은 메모리 사용량과 대역폭 압박을 낮추고, sparse/local attention은 긴 시퀀스에서 실제 attention 연산량을 줄입니다. 함께 쓰면 장문 컨텍스트 서빙에서 더 큰 효과를 얻을 수 있습니다.
Quiz 3: 장문 컨텍스트 모델이 QK-Norm이나 attention windowing 같은 안정화 장치를 도입하는 이유는 무엇인가요?
시퀀스가 길어질수록 attention score의 수치적 안정성과 메모리 사용을 동시에 관리하기 어려워집니다. QK-Norm은 attention 값을 더 안정적으로 유지하도록 돕고, windowing은 한 번에 처리해야 할 범위를 줄여줍니다. 둘 다 장문 학습과 서빙을 더 현실적으로 만들어 주는 장치입니다.
Quiz 4: Optical context compression은 단순히 모델의 text context window를 늘리는 것과 왜 다를까요?
Text context window를 늘리는 방식은 입력을 discrete text token으로 보존한 채 attention과 KV cache 시스템이 더 많은 위치를 처리하도록 만듭니다. Optical compression은 모델이 입력을 보기 전에 표현 자체를 바꿉니다. text와 layout을 vision token으로 인코딩하여 token 수를 줄일 수 있지만, 그 대신 lossy reconstruction 문제, layout sensitivity, 정확한 symbol 검증 필요성이 생깁니다.
References
- DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
- Ainslie, J., et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245.
- Wei, H., Sun, Y., & Li, Y. (2025). DeepSeek-OCR: Contexts Optical Compression. arXiv:2510.18234.
- MiniMaxAI. (2025). MiniMax-Text-01 model card. Hugging Face.
- Moonshot AI. (2025). Kimi Linear: An Expressive, Efficient Attention Architecture. Hugging Face.
- Qwen. (2026). Qwen3.6-35B-A3B model card. Hugging Face.
- Inclusion AI. (2026). Ling-2.6-flash model card. Hugging Face.