-
EXAONE 4.5: LG의 첫 오픈웨이트 비전-언어 모델 완전 분석 (2026)AI 2026. 4. 9. 21:41반응형
산업 현장에서 계약서, 기술 도면, 재무제표를 AI로 분석하고 싶었지만, 기존 텍스트 중심 LLM으로는 한계가 명확했어요. 2026년 4월 9일, LG AI연구원이 공개한 **EXAONE 4.5**는 바로 이 문제를 정면으로 겨냥한 비전-언어 모델(VLM)이에요. 자체 개발한 비전 인코더(Vision Encoder)와 EXAONE 4.0 LLM을 하나의 구조로 통합해, 텍스트와 이미지를 동시에 이해하고 추론하는 능력을 갖췄어요. 특히 330억(33B) 파라미터라는 비교적 컴팩트한 크기로 글로벌 톱티어 모델들을 벤치마크에서 앞서는 점이 인상적이에요. 이 글에서는 아키텍처, 벤치마크 성능, 그리고 실제 배포 방법까지 개발자 관점에서 핵심을 짚어볼게요.
## 아키텍처: 네이티브 멀티모달과 하이브리드 어텐션
**EXAONE 4.5**의 가장 큰 기술적 차별점은 네이티브 멀티모달 사전학습(Native Multimodal Pretraining) 방식을 채택했다는 점이에요. 기존의 많은 VLM이 텍스트 모델과 비전 모델을 각각 학습한 뒤 후처리로 결합하는 반면, EXAONE 4.5는 처음부터 텍스트와 시각 정보를 함께 학습해요. 이 접근 방식 덕분에 두 모달리티 간의 자연스러운 융합이 이뤄지고, 복합 문서를 다룰 때 맥락 파악 능력이 크게 향상돼요.
### Visual Encoder 설계
비전 인코더에는 Grouped Query Attention(GQA) 메커니즘이 적용됐어요. 쿼리를 여러 그룹으로 묶고, 각 그룹이 동일한 Key-Value 헤드를 공유하는 구조예요. 이를 통해 시각 정보 처리에 따른 연산량 증가를 최소화하면서도 성능을 유지해요. 비전 인코더의 파라미터는 약 12억(1.2B)으로, 전체 33B 중 상대적으로 가벼운 비중을 차지해요.
실용적인 관점에서 GQA는 vLLM, TensorRT-LLM, SGLang 등 주요 추론 프레임워크가 이미 기본 최적화를 지원하는 방식이에요. 별도의 커스텀 커널 없이도 추론 속도와 메모리 효율을 바로 확보할 수 있다는 뜻이에요.
### 효율성 극대화
EXAONE 4.5는 K-EXAONE(236B) 대비 약 7분의 1 크기이지만, 하이브리드 어텐션 구조와 멀티 토큰 예측(Multi-Token Prediction) 기반의 고속 추론 기술을 적용해 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다고 LG AI연구원은 설명해요. 단일 H200 GPU에서 256K 컨텍스트 길이로 서빙할 수 있고, 4x A100-40GB에서도 텐서 병렬 처리로 운영이 가능해요.
## 벤치마크 성능: 글로벌 경쟁 모델과의 비교
LG AI연구원이 공개한 벤치마크 결과에 따르면, **EXAONE 4.5**는 STEM(과학·기술·공학·수학) 5개 지표 평균 77.3점을 기록했어요. 주요 비교 대상 모델의 점수와 비교하면 다음과 같아요:
- OpenAI GPT-5 mini: 73.5점
- Anthropic Claude Sonnet 4.5: 74.6점
- Alibaba Qwen3 235B: 77.0점
- **EXAONE 4.5 33B: 77.3점**
코딩 벤치마크인 LiveCodeBench v6에서는 81.4점을 기록하며 Google Gemma 4(80.0점)를 앞섰어요. 복합 차트 분석을 평가하는 ChartQA Pro에서는 62.2점을 달성했고, MMMU-Pro에서도 GPT-5 mini와 Claude Sonnet 4.5를 상회하는 성적을 보였어요. 13개 시각 평가 지표 평균에서도 주요 경쟁 모델을 앞서는 종합적인 결과를 보여줬어요.
특히 주목할 점은 33B라는 파라미터 규모예요. Qwen3 235B처럼 훨씬 큰 모델과 대등하거나 앞서는 성능을 보인다는 건, 추론 비용 대비 성능 효율이 상당히 높다는 의미예요.
## 실전 배포: vLLM과 SGLang으로 서빙하기
개발자 입장에서 가장 중요한 건 실제로 어떻게 서빙하느냐예요. 현재 **EXAONE 4.5**는 공식 vLLM과 Transformers의 포크(fork) 버전을 설치해야 해요. 설치는 다음과 같아요:
```bash
uv pip install git+https://github.com/lkm2835/vllm.git@add-exaone4_5
uv pip install git+https://github.com/nuxlear/transformers.git@add-exaone4_5
```
vLLM으로 서버를 띄우는 커맨드는 아래와 같아요:
```bash
vllm serve LGAI-EXAONE/EXAONE-4.5-33B \
--served-model-name EXAONE-4.5-33B \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--tool-call-parser hermes
```
SGLang을 선호한다면 EAGLE 기반 Speculative Decoding까지 활용할 수 있어요:
```bash
python -m sglang.launch_server \
--model-path LGAI-EXAONE/EXAONE-4.5-33B \
--served-model-name EXAONE-4.5-33B \
--port 8000 \
--tp-size 2 \
--reasoning-parser qwen3 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
```
서버가 올라가면 OpenAI 호환 API(`http://localhost:8000/v1`)로 바로 연결할 수 있어요. 이미지와 텍스트를 함께 보내는 멀티모달 요청도 OpenAI SDK로 처리할 수 있어요:
```python
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="EXAONE-4.5-33B",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}},
{"type": "text", "text": "이 차트의 핵심 트렌드를 분석해줘"}
]
}],
max_tokens=32768,
temperature=1.0,
top_p=0.95,
presence_penalty=1.5,
extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
```
한 가지 주의할 점은 EXAONE 4.5의 기본값이 `enable_thinking=True`라는 것이에요. 지연 시간이 중요한 태스크에서는 `enable_thinking=False`로 비추론(non-reasoning) 모드를 사용하는 게 좋아요. 범용 목적에는 `temperature=1.0`, `top_p=0.95`, `presence_penalty=1.5`가 권장 설정이에요.
## 라이선스와 지원 언어
EXAONE 4.5는 EXAONE AI Model License Agreement 1.2 - NC 라이선스로 허깅페이스(Hugging Face)에 공개돼 있어요. 연구, 학술, 교육 목적으로 자유롭게 활용할 수 있지만, 상업적 사용에는 제한이 있다는 점은 유의해야 해요. 지원 언어는 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 총 6개 언어로 확장됐어요.
LG AI연구원은 한국의 역사와 문화적 맥락을 깊이 이해하는 AI를 목표로 동북아역사재단 등과 협업도 이어가고 있어요. 궁극적으로는 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스(Physical Intelligence)까지 발전시키겠다는 로드맵을 제시했어요.
## 마무리
**EXAONE 4.5**는 33B라는 효율적인 크기로 글로벌 톱티어 모델들을 상회하는 멀티모달 성능을 보여주며, 한국어 맥락 추론에서 특히 강점을 가진 모델이에요. vLLM과 SGLang 등 주요 추론 프레임워크를 지원하므로 기존 인프라에 비교적 수월하게 통합할 수 있어요. NC 라이선스 제한과 포크 버전 의존성은 주의해야 하지만, 산업 현장의 문서 이해와 시각 추론이 필요한 프로젝트라면 반드시 검토해볼 가치가 있는 모델이에요.반응형'AI' 카테고리의 다른 글
Managed Agents 아키텍처: 브레인과 핸즈를 분리하는 확장 전략 (0) 2026.04.09 AI 생성 코드 보안: PR의 87%에서 취약점이 발견되는 이유와 대응법 (0) 2026.04.08 AI 생성 코드 탐지: 개발자가 알아야 할 164가지 시그널과 도구 (0) 2026.04.08 gemma4 vllm 실행 방법: 최신 설치부터 서버 구성까지 (0) 2026.04.06 하네스 엔지니어링(Harness Engineering) 완벽 가이드 | 2026 AI 에이전트 개발의 핵심 (0) 2026.04.05