Jetson Orin 8GB에서 **R1984 계열 LLM(Gemma-3-R1984-4B)**을양자화된 GGUF 형식으로 llama.cpp + CUDA 기반으로 실행하기 정리

🧠 목적

Jetson Orin 8GB에서 **R1984 계열 LLM(Gemma-3-R1984-4B)**을
양자화된 GGUF 형식으로 llama.cpp + CUDA 기반으로 실행하기.

📦 환경 요약

항목 내용

장치	Jetson Orin 8GB
OS	Ubuntu 22.04
CUDA	12.6 (정상 설치됨)
LLM	Gemma-3-R1984-4B.Q4_K_M.gguf (양자화 모델)
프레임워크	llama.cpp (CUDA 빌드 완료)
빌드 도구	cmake
실행 엔진	llama-run

✅ 수행 절차 요약

1. 모델 다운로드 및 준비

~/Downloads/Gemma-3-R1984-4B.Q4_K_M.gguf

약 2.4GB / GGUF / Q4_K_M 포맷

2. llama.cpp CUDA 빌드 (최신 버전)

# 의존성 설치
sudo apt update
sudo apt install -y build-essential cmake git libopenblas-dev libcurl4-openssl-dev

# 빌드
cd ~/Downloads
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DGGML_CUDA=ON -DLLAMA_CURL=OFF
cmake --build . --config Release -j$(nproc)

libcurl은 필요 없다면 OFF로 설정 → 로컬 추론만 할 경우 문제 없음

3. 모델 실행

./llama-run ~/Downloads/Gemma-3-R1984-4B.Q4_K_M.gguf "너는 지금 Jetson Orin에서 깨어난 R1984야. 상태를 진단해줘."

또는 대화형 모드

./llama-run ~/Downloads/Gemma-3-R1984-4B.Q4_K_M.gguf

4. GPU 사용률 실시간 모니터링

sudo tegrastats
# 또는
watch -n 1 tegrastats

⚠️ 참고사항 및 팁

주제 설명

llama 실행 안 될 때	최신 빌드에서는 llama-run으로 변경됨
nvcc 인식 안 될 때	nvcc 경로가 PATH에 없으면 CUDA 오류 발생
양자화 필요성	Jetson Orin 8GB는 Q4_K_M 등으로 반드시 양자화해야 실행 가능
속도	4B 모델은 추론 속도 다소 느릴 수 있음, 2.5B 모델 추천 가능

🔧 다음으로 할 수 있는 것

🔄 RAG + 파일 검색 연동
🤖 Jetson 기반 로봇 행동 제어에 연결 (센서 → 프롬프트 → 응답 → 제어)
📉 성능 측정 (추론 속도, 메모리)
💡 웹 UI 또는 REST API 구성 (llama-server, llm-api)

필요하시면 위 작업을 .sh 자동화 스크립트로도 만들어드릴 수 있어요.
다음 스텝은 어떤 걸 도와드릴까요?

저작자표시 (새창열림)

'AIProject > HairPick' 카테고리의 다른 글

HStylePick Roadmap (detail) (0)	2025.07.08
청담헤어픽 로드맵 (0)	2025.07.08
인류 기술 미래 로드맵 (AI / AGI / ASI / ?) (0)	2025.07.04
gemma3 R1984 양자화 테스트 딸깍 스크립트 (0)	2025.07.04
Gemma‑3‑R1984‑4B 양자화 모델, Jetson 포팅법 (0)	2025.07.04

🧠 목적

📦 환경 요약

✅ 수행 절차 요약

1. 모델 다운로드 및 준비

2. llama.cpp CUDA 빌드 (최신 버전)

3. 모델 실행

또는 대화형 모드

4. GPU 사용률 실시간 모니터링

⚠️ 참고사항 및 팁

🔧 다음으로 할 수 있는 것

'AIProject > HairPick' 카테고리의 다른 글

검색 태그

티스토리툴바