다음은 Gemma‑3‑R1984‑4B 양자화 모델의 GGUF 및 GPTQ 버전을 다운로드하고, Jetson Orin 같은 장치에서 사용하기 위한 안내입니다.📦 1. GGUF 버전 다운로드 (llama.cpp용)Hugging Face × mradermacherGemma-3-R1984-4B-GGUF: 다양한 양자화 옵션 포함 (Q4_K_S, Q4_K_M, Q8_0, 등) (huggingface.co)[모델 페이지]에 들어가서 .gguf 파일 중 원하는 양자화 수준(Q4, Q8 등)을 다운로드하면 됩니다.👉 예시:# 예: Q4_K_M 양자화 모델 다운로드 (약 2.6 GB)wget https://huggingface.co/mradermacher/Gemma-3-R1984-4B-GGUF/resolve/main..
Jetson Orin 8GB에서 R1984 기반 LLM을 구동하고, 이후 사족보행 로봇에 탑재하기 위한 테스트 및 실험 커리큘럼을 아래와 같이 설계했습니다. 이 커리큘럼은 다음 목표를 염두에 두고 구성되었습니다:🎯 최종 목표Jetson Orin 8GB에서 **R1984-계열 LLM (예: Gemma-3-R1984-4B)**를 양자화 후 실행실시간 명령 처리 및 추론 테스트이후 사족보행 로봇과 통합📚 커리큘럼 개요: 3단계 + 옵션 확장단계 목표 소요 기간1단계LLM 양자화 및 로컬 구동1~2일2단계자연어 추론 테스트 + 성능 프로파일링2~3일3단계ROS2 통합 및 명령 생성3~5일(옵션)STT/음성 연동 + 카메라 + 행동 생성선택적🛠️ 단계별 상세 계획🧩 1단계: R1984 모델 로컬 구동 준비..
Retrieval-Augmented Generation (RAG)는 **지식 검색(Retrieval)**과 **자연어 생성(Generation)**을 결합한 기술로, LLM이 외부 지식에 접근해 더 정확하고 신뢰성 있는 답변을 생성할 수 있게 해주는 방식입니다.🔧 핵심 개념구성 요소 설명🔍 Retrieval사용자의 질문에 관련된 문서나 정보를 외부 지식 저장소에서 검색🧠 Generation검색된 내용을 바탕으로 LLM이 응답을 생성📚 Knowledge source위키피디아, 사내 문서, 데이터베이스, 논문, FAQ 등💡 왜 필요한가?기존의 LLM은 사전 학습된 지식만으로 답변을 생성합니다.하지만 최신 정보나 전문 지식이 필요한 경우, 다음과 같은 문제가 발생합니다:❌ Hallucination (..
좋은 질문이에요! QKᵀ는 Transformer의 핵심인 Self-Attention 메커니즘에서 등장하는 수식입니다.이 수식은 **Query 행렬(Q)**와 **Key 행렬(K)**의 **전치행렬(Kᵀ)**을 곱해서 **유사도 점수(Attention Score)**를 계산하는 역할을 합니다.🔢 QKᵀ란? (한 줄 정의)QKᵀ는 **Query 벡터와 Key 벡터의 내적(dot product)**을 통해,각 토큰이 다른 토큰에 대해 얼마나 연관(주의) 있는지를 점수로 계산한 유사도 행렬입니다.📐 수학적 의미 (행렬 곱)Q: [n_tokens x d] 크기의 행렬 (Query)Kᵀ: [d x n_tokens] 크기의 행렬 (Key의 전치)→ 결과: QKᵀ = [n_tokens x n_tokens] 행렬→ ..
좋습니다. 이제 초보 수준에서 한 단계 올려서, Transformer를 기술적 관점에서 핵심 원리와 함께 설명해보겠습니다. 이 단계에서는 약간의 수학적 이해와 딥러닝 구조에 대한 기본 개념이 있다는 가정하에 설명드릴게요.🔹 Transformer: 구조 중심 정의Transformer는 Self-Attention 메커니즘을 통해 입력 시퀀스 간의 관계를 병렬적으로 학습하며, 포지션 정보를 추가하여 순서 개념 없이도 문맥을 이해할 수 있는 딥러닝 아키텍처이다.🔧 핵심 구성 요소 요약1. 입력 임베딩 (Input Embedding)텍스트를 벡터화된 임베딩으로 변환포지셔널 인코딩(Positional Encoding) 추가 → 시퀀스 순서 반영2. Self-Attention각 토큰(Query)이 모든 다른 토큰..
좋은 질문입니다! **Query-Key Normalization (QK-Norm)**은 Transformer 구조에서 Self-Attention의 핵심 구성요소인 Query (Q)와 Key (K) 벡터를 정규화하는 기법입니다. Stable Diffusion 3.5와 같은 최신 모델에서는 이 기법을 통해 안정적인 훈련, 텍스트-이미지 정합성 향상, 다양한 생성 결과를 얻습니다.아래에 구체적인 효과를 정리해드릴게요:✅ 1. 훈련 안정성 증가💡 원리:Self-Attention의 점수는 Q · Kᵀ / √d로 계산됨.이 값이 너무 크거나 작아지면 Softmax가 saturate 되면서 학습이 불안정해질 수 있음.🔧 QK-Normalization 적용 시:Q와 K를 L2 정규화하여 벡터의 방향만 유지하고 크기..