반응형
텍스트 데이터를 학습한 모델
단, 많은 텍스트(상상을 초월하는)
LLM은 단순히 문장을 이어 쓰는 수준이 아니라:
- 문맥 이해
- 질문 응답
- 번역
- 요약
- 코드 생성
- 추론
- 지식 기반 대화
같은 기능을 지원해야함.
ChatGPT, Claude, Gemini, Llama, Qwen 같은 것들이 모두 LLM
(다만, 매개변수가 수십억개 이상으로 증가되는 모델들은 파운데이션 모델로 또 구분되기도 함)
LLM의 핵심 구성 요소
1) Transformer 구조
2017년 구굴이 발표한 모델 구조
LLM의 뇌에 해당
핵심 기술:
- Self-Attention: 문장 안의 단어들이 서로를 바라보면서 의미를 파악
- Multi-Head Attention: 서로 다른 시각에서 문맥을 해석
- Feed Forward Network: 의미를 더 정교하게 변환
이 구조로 인해 인공지능은 변환점을 맞이함
2) 거대한 파라미터(Parameters)
모델의 지능 = 파라미터 수 * 학습 데이터 품질
- GPT-3 : 175B
- GPT-4o:(비공개지만 훨씬 크고 효율적)
- Llama 3: 70B
- Qwen 2.5: 72B
파라미터가 많아지면 모델의 "표현력"이 증가해서 더 정확한 추론과 자연스러운 언어 처리가 가능
3) 훈련 과정 (Training Process)
- Pre-Training (사전 학습)
: 웹 전체, 책, 논문, 코드 등 대용량 데이터를 사용해 "언의어 규칙"을 학습하는 단계
훈련 목표 : 다음 토큰(단어/문자)을 예측해봐
이 단순한 원리로 문법, 의미, 상식, 세계 지식을 전부 배움
ㄴ돈이 미친듯이 드는 단계
ㄴPre-Training에 엄청난 리소스가 발생하기에 RAG 등이 발전한 경향도 존재 - Fine-Tuning (파인튜닝)
: 사전학습된 모델에 특정 모델의 데이터(영어 교정, 법률 QA, 코드)로 추가 학습.
ㄴ이것도 시간 많이 들어감, 며칠은 걸림 - Instruction Tuning (명령어 학습)
: LLM이 사람의 질문/명령을 잘 이해하고 대답하도록 만든 과정 - RLHF (Reinforcement Learning from Human Feedback)
: 사람이 모델의 답변을 평가(Evaluation)해서, 더 좋은 답변을 하도록 강화학습 하는 단계
반응형
'인공지능' 카테고리의 다른 글
| CUDA(Compute Unified Device Architecture) (0) | 2025.12.03 |
|---|---|
| AI 강의 (0) | 2025.11.24 |
| A2A(Agent2Agent) protocol (0) | 2025.11.19 |
| MCP(Model Context Protocol) - AI 시대의 새로운 표준 인터페이스 (0) | 2025.11.19 |
| RAG(Retrieval-Augmented Generation) (0) | 2025.11.18 |