Ollama + Gemma 4 26B Mac mini 설치 완전 가이드

AI 2026. 4. 3. 22:42

Mac mini에서 로컬 LLM을 돌리고 싶다면

클라우드 API 비용이 부담스럽거나, 코드와 데이터를 외부로 보내기 꺼려지는 상황이라면 로컬에서 대형 언어 모델을 직접 실행하는 게 현실적인 대안이에요. Ollama는 Apple Silicon Mac에서 LLM을 손쉽게 실행할 수 있게 해주는 런타임으로, v0.19부터 Apple의 MLX 프레임워크를 자동으로 활용해 추론 속도가 크게 향상됐어요. 이 글에서는 Mac mini (M1~M5) 위에서 Ollama와 Gemma 4 26B 모델을 설치하고, 부팅 시 자동 로드까지 구성하는 전 과정을 다뤄요.

사전 준비

시작 전에 아래 조건을 확인하세요.

Apple Silicon Mac mini (M1/M2/M3/M4/M5)
통합 메모리(Unified Memory) 24GB 이상 — Gemma 4 26B는 로드 시 약 20GB를 사용해요
macOS + Homebrew 설치 완료
여유 저장 공간 약 20GB (모델 다운로드 ~17GB 포함)

24GB 모델에서 Gemma 4 26B를 실행하면 시스템에 약 4GB만 남아요. 실행 전 메모리를 많이 쓰는 앱은 미리 종료하는 게 좋아요.

Step 1~4: 설치 및 모델 실행

Ollama 설치

Homebrew cask로 설치하면 자동 업데이트와 MLX 백엔드가 함께 제공돼요.

brew install --cask ollama-app

설치 후 메뉴 바에 Ollama 아이콘이 나타나면 서버가 초기화된 거예요. 바이너리 경로는 /opt/homebrew/bin/ollama예요.

Gemma 4 26B 다운로드 및 실행

# 모델 다운로드 (~17GB)
ollama pull gemma4:26b

# 대화형 실행
ollama run gemma4:26b

실행 후 GPU 가속 여부를 확인하려면 ollama ps 명령어를 사용하세요. 14%/86% CPU/GPU 형태로 출력되면 MLX 가속이 정상 적용된 거예요.

ollama ps
# NAME          ID              SIZE     PROCESSOR          CONTEXT    UNTIL
# gemma4:26b    5571076f3d70    20 GB    14%/86% CPU/GPU    4096       Forever

Step 5: 부팅 시 자동 시작 및 모델 워밍

개발 환경으로 상시 활용하려면 Mac 재시작 후에도 Ollama와 모델이 자동으로 올라와 있어야 해요.

5a. 로그인 시 Ollama 앱 자동 실행

메뉴 바 아이콘 클릭 → 시스템 설정 > 일반 > 로그인 항목에서 Ollama를 추가하세요.

5b. LaunchAgent로 모델 자동 프리로드

기본적으로 Ollama는 5분간 요청이 없으면 모델을 언로드해요. 아래 LaunchAgent를 등록하면 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지할 수 있어요.

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
  "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
  <key>Label</key>
  <string>com.ollama.preload-gemma4</string>
  <key>ProgramArguments</key>
  <array>
    <string>/opt/homebrew/bin/ollama</string>
    <string>run</string>
    <string>gemma4:26b</string>
    <string></string>
  </array>
  <key>StartInterval</key>
  <integer>300</integer>
  <key>StandardOutPath</key>
  <string>/tmp/ollama-preload.log</string>
  <key>StandardErrorPath</key>
  <string>/tmp/ollama-preload.log</string>
</dict>
</plist>

파일을 ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist로 저장한 뒤 등록하세요.

launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist

5c. 모델 영구 로드 유지 (`OLLAMA_KEEP_ALIVE`)

# 현재 세션에만 적용
launchctl setenv OLLAMA_KEEP_ALIVE "-1"

# 재부팅 후에도 유지하려면 셸 설정에 추가
export OLLAMA_KEEP_ALIVE="-1"

-1로 설정하면 비활성 타임아웃 없이 모델이 메모리에 상주해요.

Step 6: API 활용 및 유용한 명령어

Ollama는 http://localhost:11434에 로컬 API를 노출해요. OpenAI 호환 엔드포인트를 제공하므로 Claude Code, Continue, 또는 자체 에이전트와 바로 연동할 수 있어요.

# Chat Completion (OpenAI 호환)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:26b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

# 다운로드된 모델 목록
ollama list

# 실행 중인 모델 및 메모리 사용량
ollama ps

# 모델 중지 (메모리 해제)
ollama stop gemma4:26b

# 최신 버전으로 업데이트
ollama pull gemma4:26b

Ollama v0.19+ 주요 업데이트 (2026년 3월 기준)

MLX 백엔드 자동 적용: Apple Silicon에서 별도 설정 없이 MLX 추론 가속이 활성화돼요. M5 계열은 GPU Neural Accelerator로 추가 가속 혜택을 받아요.
캐시 재사용 개선: 동일한 시스템 프롬프트를 공유하는 대화 브랜치 간 KV 캐시를 재사용해 메모리 사용량을 줄이고 응답 속도를 높였어요. Claude Code 같은 에이전트 워크플로우에서 효과가 커요.
스마트 체크포인트: 프롬프트 내 최적 위치에 캐시 스냅샷을 저장해 프롬프트 재처리를 최소화해요.
NVFP4 지원 (NVIDIA): NVIDIA 환경에서 메모리 대역폭과 저장 용량을 줄이면서 정확도를 유지하는 새 양자화 포맷을 지원해요.

마무리

Ollama + Gemma 4 26B 조합은 24GB Mac mini를 상시 가동 로컬 추론 서버로 만들어줘요. MLX 백엔드 자동 적용과 캐시 개선 덕분에 이전보다 훨씬 실용적인 개발 환경이 됐어요. 앞으로 더 큰 컨텍스트 윈도우와 멀티모달 지원이 강화될수록 로컬 LLM의 활용 범위는 계속 넓어질 거예요.

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

ADK Agent Skills 패턴 가이드: 프로그레시브 디스클로저로 AI 에이전트 확장하기 (0)	2026.04.04
Gemma 4로 구현하는 온디바이스 에이전트 AI 완전 가이드 (0)	2026.04.03
Gemma 4 완벽 가이드: 파라미터 효율 극대화한 구글 오픈 모델 (0)	2026.04.03
Qwen3.6 Plus 완벽 정리 2026: 알리바바 AI의 새로운 기준 (0)	2026.04.03
Booking.com, OpenAI LLM 통합으로 스마트 여행 경험 제공 (0)	2026.04.02

ABOUT ME

개발자의 성장 로그 개발자의 성장 로그

Mac mini에서 로컬 LLM을 돌리고 싶다면

사전 준비

Step 1~4: 설치 및 모델 실행

Ollama 설치

Gemma 4 26B 다운로드 및 실행

Step 5: 부팅 시 자동 시작 및 모델 워밍

5a. 로그인 시 Ollama 앱 자동 실행

5b. LaunchAgent로 모델 자동 프리로드

5c. 모델 영구 로드 유지 (`OLLAMA_KEEP_ALIVE`)

Step 6: API 활용 및 유용한 명령어

Ollama v0.19+ 주요 업데이트 (2026년 3월 기준)

마무리

'AI' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Mac mini에서 로컬 LLM을 돌리고 싶다면

사전 준비

Step 1~4: 설치 및 모델 실행

Ollama 설치

Gemma 4 26B 다운로드 및 실행

Step 5: 부팅 시 자동 시작 및 모델 워밍

5a. 로그인 시 Ollama 앱 자동 실행

5b. LaunchAgent로 모델 자동 프리로드

5c. 모델 영구 로드 유지 (OLLAMA_KEEP_ALIVE)

Step 6: API 활용 및 유용한 명령어

Ollama v0.19+ 주요 업데이트 (2026년 3월 기준)

마무리

'AI' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

5c. 모델 영구 로드 유지 (`OLLAMA_KEEP_ALIVE`)