M2 Pro 맥미니에서 Gemma 4:e4b 사용 후기

Gemma 4:e4b 모델을 M2 Pro 맥미니(16GB) 환경에 올려서 테스트해봄.
단순히 설치해서 대화만 해본 게 아니라, Ollama API를 호출하는 JavaScript 스크립트를 짜서 응답 속도와 자원 소모량을 실시간으로 정밀 측정함.
테스트는 컨텍스트 길이를 8K, 16K, 32K로 가변 설정하며 수행함. 측정 지표는 첫 토큰 지연 시간(TTFT)과 초당 토큰 생성수(TPS)를 기준으로 삼음.
8K에서 TTFT는 약 13초, TPS는 33.04를 기록함.
16K로 확장했을 때 TTFT는 19초로 약간 늘었지만, TPS는 34.07로 오히려 소폭 상승함.
32K 환경에서도 TPS 33.54를 유지하며 컨텍스트 크기에 따른 생성 속도 저하가 거의 없는것을 확인함.
추론 중 실시간 자원 사용량을 모니터링한 결과, CPU 점유율은 평균 15~20% 수준으로 매우 낮게 유지됨. 메모리의 경우 추론이 시작되면 KV 캐시 할당으로 인해 시스템 전체 메모리 점유율이 피크 시 88%까지 올라감. 하지만 약 12%의 유휴 메모리가 안정적으로 확보되어 포토샵이나 수십 개의 브라우저 탭을 동시에 사용하는 멀티태스킹 환경에서도 시스템 버벅임이 전혀 없는 쾌적한 상태를 보여줌.
비전(Vision) 분석 능력 테스트를 위해 복잡한 수치가 적힌 기술 사양표 이미지를 입력값으로 넣어봄. E4B 모델의 컨텍스트 길이(128,000)와 지원 모달리티 정보를 소수점이나 단위 오차 없이 100% 정확하게 발췌해냄. 이미지 기반의 데이터 추출에서도 할루시네이션(환각) 없이 높은 정합성을 유지하는 것을 확인함.
결론적으로 M2 Pro 환경에서 Gemma 4:e4b 모델은 16K 설정이 성능과 자원 효율의 가장 완벽한 균형점인 것 같음.
32K는 대규모 코드 분석 등 특수 상황에서만 쓰고, 평상시에는 16K를 기본값으로 쓰는 게 멀티태스킹 측면에서 가장 유리할듯함. RAG(검색 증강 생성) 시스템과 조합하면 유료 API 없이도 로컬에서 충분히 고성능 지능형 인프라를 운용할 수 있을 것으로 보임.
// Keep recording, Stay inspired.
Comments
// 0 items작성된 댓글이 없습니다. 첫 댓글을 남겨보세요!