-
Ollama + Gemma 4 26B Mac mini 설치 완전 가이드AI 2026. 4. 3. 22:42반응형
Mac mini에서 로컬 LLM을 돌리고 싶다면
클라우드 API 비용이 부담스럽거나, 코드와 데이터를 외부로 보내기 꺼려지는 상황이라면 로컬에서 대형 언어 모델을 직접 실행하는 게 현실적인 대안이에요. Ollama는 Apple Silicon Mac에서 LLM을 손쉽게 실행할 수 있게 해주는 런타임으로, v0.19부터 Apple의 MLX 프레임워크를 자동으로 활용해 추론 속도가 크게 향상됐어요. 이 글에서는 Mac mini (M1~M5) 위에서 Ollama와 Gemma 4 26B 모델을 설치하고, 부팅 시 자동 로드까지 구성하는 전 과정을 다뤄요.
사전 준비
시작 전에 아래 조건을 확인하세요.
- Apple Silicon Mac mini (M1/M2/M3/M4/M5)
- 통합 메모리(Unified Memory) 24GB 이상 — Gemma 4 26B는 로드 시 약 20GB를 사용해요
- macOS + Homebrew 설치 완료
- 여유 저장 공간 약 20GB (모델 다운로드 ~17GB 포함)
24GB 모델에서 Gemma 4 26B를 실행하면 시스템에 약 4GB만 남아요. 실행 전 메모리를 많이 쓰는 앱은 미리 종료하는 게 좋아요.
Step 1~4: 설치 및 모델 실행
Ollama 설치
Homebrew cask로 설치하면 자동 업데이트와 MLX 백엔드가 함께 제공돼요.
brew install --cask ollama-app설치 후 메뉴 바에 Ollama 아이콘이 나타나면 서버가 초기화된 거예요. 바이너리 경로는
/opt/homebrew/bin/ollama예요.Gemma 4 26B 다운로드 및 실행
# 모델 다운로드 (~17GB) ollama pull gemma4:26b # 대화형 실행 ollama run gemma4:26b실행 후 GPU 가속 여부를 확인하려면
ollama ps명령어를 사용하세요.14%/86% CPU/GPU형태로 출력되면 MLX 가속이 정상 적용된 거예요.ollama ps # NAME ID SIZE PROCESSOR CONTEXT UNTIL # gemma4:26b 5571076f3d70 20 GB 14%/86% CPU/GPU 4096 Forever
Step 5: 부팅 시 자동 시작 및 모델 워밍
개발 환경으로 상시 활용하려면 Mac 재시작 후에도 Ollama와 모델이 자동으로 올라와 있어야 해요.
5a. 로그인 시 Ollama 앱 자동 실행
메뉴 바 아이콘 클릭 → 시스템 설정 > 일반 > 로그인 항목에서 Ollama를 추가하세요.
5b. LaunchAgent로 모델 자동 프리로드
기본적으로 Ollama는 5분간 요청이 없으면 모델을 언로드해요. 아래 LaunchAgent를 등록하면 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지할 수 있어요.
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd"> <plist version="1.0"> <dict> <key>Label</key> <string>com.ollama.preload-gemma4</string> <key>ProgramArguments</key> <array> <string>/opt/homebrew/bin/ollama</string> <string>run</string> <string>gemma4:26b</string> <string></string> </array> <key>StartInterval</key> <integer>300</integer> <key>StandardOutPath</key> <string>/tmp/ollama-preload.log</string> <key>StandardErrorPath</key> <string>/tmp/ollama-preload.log</string> </dict> </plist>파일을
~/Library/LaunchAgents/com.ollama.preload-gemma4.plist로 저장한 뒤 등록하세요.launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist5c. 모델 영구 로드 유지 (
OLLAMA_KEEP_ALIVE)# 현재 세션에만 적용 launchctl setenv OLLAMA_KEEP_ALIVE "-1" # 재부팅 후에도 유지하려면 셸 설정에 추가 export OLLAMA_KEEP_ALIVE="-1"-1로 설정하면 비활성 타임아웃 없이 모델이 메모리에 상주해요.
Step 6: API 활용 및 유용한 명령어
Ollama는
http://localhost:11434에 로컬 API를 노출해요. OpenAI 호환 엔드포인트를 제공하므로 Claude Code, Continue, 또는 자체 에이전트와 바로 연동할 수 있어요.# Chat Completion (OpenAI 호환) curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:26b", "messages": [{"role": "user", "content": "Hello"}] }' # 다운로드된 모델 목록 ollama list # 실행 중인 모델 및 메모리 사용량 ollama ps # 모델 중지 (메모리 해제) ollama stop gemma4:26b # 최신 버전으로 업데이트 ollama pull gemma4:26bOllama v0.19+ 주요 업데이트 (2026년 3월 기준)
- MLX 백엔드 자동 적용: Apple Silicon에서 별도 설정 없이 MLX 추론 가속이 활성화돼요. M5 계열은 GPU Neural Accelerator로 추가 가속 혜택을 받아요.
- 캐시 재사용 개선: 동일한 시스템 프롬프트를 공유하는 대화 브랜치 간 KV 캐시를 재사용해 메모리 사용량을 줄이고 응답 속도를 높였어요. Claude Code 같은 에이전트 워크플로우에서 효과가 커요.
- 스마트 체크포인트: 프롬프트 내 최적 위치에 캐시 스냅샷을 저장해 프롬프트 재처리를 최소화해요.
- NVFP4 지원 (NVIDIA): NVIDIA 환경에서 메모리 대역폭과 저장 용량을 줄이면서 정확도를 유지하는 새 양자화 포맷을 지원해요.
마무리
Ollama + Gemma 4 26B 조합은 24GB Mac mini를 상시 가동 로컬 추론 서버로 만들어줘요. MLX 백엔드 자동 적용과 캐시 개선 덕분에 이전보다 훨씬 실용적인 개발 환경이 됐어요. 앞으로 더 큰 컨텍스트 윈도우와 멀티모달 지원이 강화될수록 로컬 LLM의 활용 범위는 계속 넓어질 거예요.
반응형'AI' 카테고리의 다른 글
ADK Agent Skills 패턴 가이드: 프로그레시브 디스클로저로 AI 에이전트 확장하기 (0) 2026.04.04 Gemma 4로 구현하는 온디바이스 에이전트 AI 완전 가이드 (0) 2026.04.03 Gemma 4 완벽 가이드: 파라미터 효율 극대화한 구글 오픈 모델 (0) 2026.04.03 Qwen3.6 Plus 완벽 정리 2026: 알리바바 AI의 새로운 기준 (0) 2026.04.03 Booking.com, OpenAI LLM 통합으로 스마트 여행 경험 제공 (0) 2026.04.02