ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Ollama + Gemma 4 26B Mac mini 설치 완전 가이드
    AI 2026. 4. 3. 22:42
    반응형

    Mac mini에서 로컬 LLM을 돌리고 싶다면

    클라우드 API 비용이 부담스럽거나, 코드와 데이터를 외부로 보내기 꺼려지는 상황이라면 로컬에서 대형 언어 모델을 직접 실행하는 게 현실적인 대안이에요. Ollama는 Apple Silicon Mac에서 LLM을 손쉽게 실행할 수 있게 해주는 런타임으로, v0.19부터 Apple의 MLX 프레임워크를 자동으로 활용해 추론 속도가 크게 향상됐어요. 이 글에서는 Mac mini (M1~M5) 위에서 Ollama와 Gemma 4 26B 모델을 설치하고, 부팅 시 자동 로드까지 구성하는 전 과정을 다뤄요.


    사전 준비

    시작 전에 아래 조건을 확인하세요.

    • Apple Silicon Mac mini (M1/M2/M3/M4/M5)
    • 통합 메모리(Unified Memory) 24GB 이상 — Gemma 4 26B는 로드 시 약 20GB를 사용해요
    • macOS + Homebrew 설치 완료
    • 여유 저장 공간 약 20GB (모델 다운로드 ~17GB 포함)

    24GB 모델에서 Gemma 4 26B를 실행하면 시스템에 약 4GB만 남아요. 실행 전 메모리를 많이 쓰는 앱은 미리 종료하는 게 좋아요.


    Step 1~4: 설치 및 모델 실행

    Ollama 설치

    Homebrew cask로 설치하면 자동 업데이트와 MLX 백엔드가 함께 제공돼요.

    brew install --cask ollama-app

    설치 후 메뉴 바에 Ollama 아이콘이 나타나면 서버가 초기화된 거예요. 바이너리 경로는 /opt/homebrew/bin/ollama예요.

    Gemma 4 26B 다운로드 및 실행

    # 모델 다운로드 (~17GB)
    ollama pull gemma4:26b
    
    # 대화형 실행
    ollama run gemma4:26b

    실행 후 GPU 가속 여부를 확인하려면 ollama ps 명령어를 사용하세요. 14%/86% CPU/GPU 형태로 출력되면 MLX 가속이 정상 적용된 거예요.

    ollama ps
    # NAME          ID              SIZE     PROCESSOR          CONTEXT    UNTIL
    # gemma4:26b    5571076f3d70    20 GB    14%/86% CPU/GPU    4096       Forever

    Step 5: 부팅 시 자동 시작 및 모델 워밍

    개발 환경으로 상시 활용하려면 Mac 재시작 후에도 Ollama와 모델이 자동으로 올라와 있어야 해요.

    5a. 로그인 시 Ollama 앱 자동 실행

    메뉴 바 아이콘 클릭 → 시스템 설정 > 일반 > 로그인 항목에서 Ollama를 추가하세요.

    5b. LaunchAgent로 모델 자동 프리로드

    기본적으로 Ollama는 5분간 요청이 없으면 모델을 언로드해요. 아래 LaunchAgent를 등록하면 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지할 수 있어요.

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
      "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
    <plist version="1.0">
    <dict>
      <key>Label</key>
      <string>com.ollama.preload-gemma4</string>
      <key>ProgramArguments</key>
      <array>
        <string>/opt/homebrew/bin/ollama</string>
        <string>run</string>
        <string>gemma4:26b</string>
        <string></string>
      </array>
      <key>StartInterval</key>
      <integer>300</integer>
      <key>StandardOutPath</key>
      <string>/tmp/ollama-preload.log</string>
      <key>StandardErrorPath</key>
      <string>/tmp/ollama-preload.log</string>
    </dict>
    </plist>

    파일을 ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist로 저장한 뒤 등록하세요.

    launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist

    5c. 모델 영구 로드 유지 (OLLAMA_KEEP_ALIVE)

    # 현재 세션에만 적용
    launchctl setenv OLLAMA_KEEP_ALIVE "-1"
    
    # 재부팅 후에도 유지하려면 셸 설정에 추가
    export OLLAMA_KEEP_ALIVE="-1"

    -1로 설정하면 비활성 타임아웃 없이 모델이 메모리에 상주해요.


    Step 6: API 활용 및 유용한 명령어

    Ollamahttp://localhost:11434에 로컬 API를 노출해요. OpenAI 호환 엔드포인트를 제공하므로 Claude Code, Continue, 또는 자체 에이전트와 바로 연동할 수 있어요.

    # Chat Completion (OpenAI 호환)
    curl http://localhost:11434/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "gemma4:26b",
        "messages": [{"role": "user", "content": "Hello"}]
      }'
    
    # 다운로드된 모델 목록
    ollama list
    
    # 실행 중인 모델 및 메모리 사용량
    ollama ps
    
    # 모델 중지 (메모리 해제)
    ollama stop gemma4:26b
    
    # 최신 버전으로 업데이트
    ollama pull gemma4:26b

    Ollama v0.19+ 주요 업데이트 (2026년 3월 기준)

    • MLX 백엔드 자동 적용: Apple Silicon에서 별도 설정 없이 MLX 추론 가속이 활성화돼요. M5 계열은 GPU Neural Accelerator로 추가 가속 혜택을 받아요.
    • 캐시 재사용 개선: 동일한 시스템 프롬프트를 공유하는 대화 브랜치 간 KV 캐시를 재사용해 메모리 사용량을 줄이고 응답 속도를 높였어요. Claude Code 같은 에이전트 워크플로우에서 효과가 커요.
    • 스마트 체크포인트: 프롬프트 내 최적 위치에 캐시 스냅샷을 저장해 프롬프트 재처리를 최소화해요.
    • NVFP4 지원 (NVIDIA): NVIDIA 환경에서 메모리 대역폭과 저장 용량을 줄이면서 정확도를 유지하는 새 양자화 포맷을 지원해요.

    마무리

    Ollama + Gemma 4 26B 조합은 24GB Mac mini를 상시 가동 로컬 추론 서버로 만들어줘요. MLX 백엔드 자동 적용과 캐시 개선 덕분에 이전보다 훨씬 실용적인 개발 환경이 됐어요. 앞으로 더 큰 컨텍스트 윈도우와 멀티모달 지원이 강화될수록 로컬 LLM의 활용 범위는 계속 넓어질 거예요.

    반응형

    댓글

Designed by Tistory.