ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • EXAONE 4.5: LG의 첫 오픈웨이트 비전-언어 모델 완전 분석 (2026)
    AI 2026. 4. 9. 21:41
    반응형

    산업 현장에서 계약서, 기술 도면, 재무제표를 AI로 분석하고 싶었지만, 기존 텍스트 중심 LLM으로는 한계가 명확했어요. 2026년 4월 9일, LG AI연구원이 공개한 **EXAONE 4.5**는 바로 이 문제를 정면으로 겨냥한 비전-언어 모델(VLM)이에요. 자체 개발한 비전 인코더(Vision Encoder)와 EXAONE 4.0 LLM을 하나의 구조로 통합해, 텍스트와 이미지를 동시에 이해하고 추론하는 능력을 갖췄어요. 특히 330억(33B) 파라미터라는 비교적 컴팩트한 크기로 글로벌 톱티어 모델들을 벤치마크에서 앞서는 점이 인상적이에요. 이 글에서는 아키텍처, 벤치마크 성능, 그리고 실제 배포 방법까지 개발자 관점에서 핵심을 짚어볼게요.

    ## 아키텍처: 네이티브 멀티모달과 하이브리드 어텐션

    **EXAONE 4.5**의 가장 큰 기술적 차별점은 네이티브 멀티모달 사전학습(Native Multimodal Pretraining) 방식을 채택했다는 점이에요. 기존의 많은 VLM이 텍스트 모델과 비전 모델을 각각 학습한 뒤 후처리로 결합하는 반면, EXAONE 4.5는 처음부터 텍스트와 시각 정보를 함께 학습해요. 이 접근 방식 덕분에 두 모달리티 간의 자연스러운 융합이 이뤄지고, 복합 문서를 다룰 때 맥락 파악 능력이 크게 향상돼요.

    ### Visual Encoder 설계

    비전 인코더에는 Grouped Query Attention(GQA) 메커니즘이 적용됐어요. 쿼리를 여러 그룹으로 묶고, 각 그룹이 동일한 Key-Value 헤드를 공유하는 구조예요. 이를 통해 시각 정보 처리에 따른 연산량 증가를 최소화하면서도 성능을 유지해요. 비전 인코더의 파라미터는 약 12억(1.2B)으로, 전체 33B 중 상대적으로 가벼운 비중을 차지해요.

    실용적인 관점에서 GQA는 vLLM, TensorRT-LLM, SGLang 등 주요 추론 프레임워크가 이미 기본 최적화를 지원하는 방식이에요. 별도의 커스텀 커널 없이도 추론 속도와 메모리 효율을 바로 확보할 수 있다는 뜻이에요.

    ### 효율성 극대화

    EXAONE 4.5는 K-EXAONE(236B) 대비 약 7분의 1 크기이지만, 하이브리드 어텐션 구조와 멀티 토큰 예측(Multi-Token Prediction) 기반의 고속 추론 기술을 적용해 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다고 LG AI연구원은 설명해요. 단일 H200 GPU에서 256K 컨텍스트 길이로 서빙할 수 있고, 4x A100-40GB에서도 텐서 병렬 처리로 운영이 가능해요.

    ## 벤치마크 성능: 글로벌 경쟁 모델과의 비교

    LG AI연구원이 공개한 벤치마크 결과에 따르면, **EXAONE 4.5**는 STEM(과학·기술·공학·수학) 5개 지표 평균 77.3점을 기록했어요. 주요 비교 대상 모델의 점수와 비교하면 다음과 같아요:

    - OpenAI GPT-5 mini: 73.5점
    - Anthropic Claude Sonnet 4.5: 74.6점
    - Alibaba Qwen3 235B: 77.0점
    - **EXAONE 4.5 33B: 77.3점**

    코딩 벤치마크인 LiveCodeBench v6에서는 81.4점을 기록하며 Google Gemma 4(80.0점)를 앞섰어요. 복합 차트 분석을 평가하는 ChartQA Pro에서는 62.2점을 달성했고, MMMU-Pro에서도 GPT-5 mini와 Claude Sonnet 4.5를 상회하는 성적을 보였어요. 13개 시각 평가 지표 평균에서도 주요 경쟁 모델을 앞서는 종합적인 결과를 보여줬어요.

    특히 주목할 점은 33B라는 파라미터 규모예요. Qwen3 235B처럼 훨씬 큰 모델과 대등하거나 앞서는 성능을 보인다는 건, 추론 비용 대비 성능 효율이 상당히 높다는 의미예요.

    ## 실전 배포: vLLM과 SGLang으로 서빙하기

    개발자 입장에서 가장 중요한 건 실제로 어떻게 서빙하느냐예요. 현재 **EXAONE 4.5**는 공식 vLLM과 Transformers의 포크(fork) 버전을 설치해야 해요. 설치는 다음과 같아요:

    ```bash
    uv pip install git+https://github.com/lkm2835/vllm.git@add-exaone4_5
    uv pip install git+https://github.com/nuxlear/transformers.git@add-exaone4_5
    ```

    vLLM으로 서버를 띄우는 커맨드는 아래와 같아요:

    ```bash
    vllm serve LGAI-EXAONE/EXAONE-4.5-33B \
      --served-model-name EXAONE-4.5-33B \
      --port 8000 \
      --tensor-parallel-size 2 \
      --max-model-len 262144 \
      --reasoning-parser qwen3 \
      --tool-call-parser hermes
    ```

    SGLang을 선호한다면 EAGLE 기반 Speculative Decoding까지 활용할 수 있어요:

    ```bash
    python -m sglang.launch_server \
      --model-path LGAI-EXAONE/EXAONE-4.5-33B \
      --served-model-name EXAONE-4.5-33B \
      --port 8000 \
      --tp-size 2 \
      --reasoning-parser qwen3 \
      --speculative-algorithm EAGLE \
      --speculative-num-steps 3 \
      --speculative-eagle-topk 1 \
      --speculative-num-draft-tokens 4
    ```

    서버가 올라가면 OpenAI 호환 API(`http://localhost:8000/v1`)로 바로 연결할 수 있어요. 이미지와 텍스트를 함께 보내는 멀티모달 요청도 OpenAI SDK로 처리할 수 있어요:

    ```python
    from openai import OpenAI

    client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

    response = client.chat.completions.create(
        model="EXAONE-4.5-33B",
        messages=[{
            "role": "user",
            "content": [
                {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}},
                {"type": "text", "text": "이 차트의 핵심 트렌드를 분석해줘"}
            ]
        }],
        max_tokens=32768,
        temperature=1.0,
        top_p=0.95,
        presence_penalty=1.5,
        extra_body={"chat_template_kwargs": {"enable_thinking": True}}
    )
    ```

    한 가지 주의할 점은 EXAONE 4.5의 기본값이 `enable_thinking=True`라는 것이에요. 지연 시간이 중요한 태스크에서는 `enable_thinking=False`로 비추론(non-reasoning) 모드를 사용하는 게 좋아요. 범용 목적에는 `temperature=1.0`, `top_p=0.95`, `presence_penalty=1.5`가 권장 설정이에요.

    ## 라이선스와 지원 언어

    EXAONE 4.5는 EXAONE AI Model License Agreement 1.2 - NC 라이선스로 허깅페이스(Hugging Face)에 공개돼 있어요. 연구, 학술, 교육 목적으로 자유롭게 활용할 수 있지만, 상업적 사용에는 제한이 있다는 점은 유의해야 해요. 지원 언어는 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 총 6개 언어로 확장됐어요.

    LG AI연구원은 한국의 역사와 문화적 맥락을 깊이 이해하는 AI를 목표로 동북아역사재단 등과 협업도 이어가고 있어요. 궁극적으로는 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스(Physical Intelligence)까지 발전시키겠다는 로드맵을 제시했어요.

    ## 마무리

    **EXAONE 4.5**는 33B라는 효율적인 크기로 글로벌 톱티어 모델들을 상회하는 멀티모달 성능을 보여주며, 한국어 맥락 추론에서 특히 강점을 가진 모델이에요. vLLM과 SGLang 등 주요 추론 프레임워크를 지원하므로 기존 인프라에 비교적 수월하게 통합할 수 있어요. NC 라이선스 제한과 포크 버전 의존성은 주의해야 하지만, 산업 현장의 문서 이해와 시각 추론이 필요한 프로젝트라면 반드시 검토해볼 가치가 있는 모델이에요.

    반응형

    댓글

Designed by Tistory.