대표적인 오픈소스 대형언어모델(LLM) 종류
모델명 | 개발자 / 출처 | 핵심 특징 | 모델 크기 (가장 흔한 버전) | 라이선스 | 주된 활용 사례 |
---|---|---|---|---|---|
GPT‑Neo / GPT‑NeoX | EleutherAI | GPT‑3와 유사한 Transformer 구조, 1.3B–20B 파라미터 | 1.3B, 2.7B, 6B, 20B | Apache-2.0 | 텍스트 생성, 챗봇, 요약 |
GPT‑J | EleutherAI | 6B 파라미터, 고품질 자연어 생성 | 6B | Apache-2.0 | 대화형 AI, 코드 생성 |
OPT (Open Pretrained Transformer) | Meta | GPT‑3 같은 구조, 125M–175B 파라미터 | 125M, 1.3B, 2.7B, 6B, 13B, 175B | MIT | 연구용, 벤치마킹 |
LLaMA (Large Language Model Meta AI) | Meta | 7B–65B 파라미터, 다양한 크기 | 7B, 13B, 33B, 65B | LLAMA 2(2023)는 Meta/LLAMA 2 모델이 공개된 라이선스로 제공 | 학술 연구, 산업용 모델 파인튜닝 |
LLaMA 2 | Meta | 7B, 13B, 33B, 65B, 70B 파라미터 | 7B, 13B, 33B, 65B, 70B | Apache-2.0 (Llama 2) | 다양한 NLP 태스크, 파인튜닝 |
Mistral 7B / Mistral 12B | Mistral AI | 7B~12B 파라미터, 효율적 CUDA 지원 | 7B, 12B | Apache-2.0 | 대화형 AI, 코드 생성, 번역 |
Falcon 40B | TII (Technology Innovation Institute) | 40B 파라미터, 뛰어난 성능 | 40B | Apache-2.0 | 연구, 벤치마크 |
StableLM | Stability AI (with EleutherAI) | 7B–13B 파라미터, 텍스트 생성 중심 | 7B, 13B | Apache-2.0 | 콘텐츠 생성, 챗봇 |
Bloom | BigScience (연합 연구) | 1.3B–176B 파라미터, 다국어 지원 | 176B | GNU Affero GPL v3 | 다국어 NLP, 연구 |
InternLM (InternLM 1.0 / 2.0) | Alibaba (InternLM) | 7B–70B 파라미터, 대화형 AI 최적화 | 7B, 20B, 70B | Apache-2.0 | 대화형 AI, 파인튜닝 |
Qwen 1.5 | Alibaba (Qwen) | 7B–200B 파라미터, 고성능, 다국어 | 7B, 32B, 72B, 140B, 200B | Apache-2.0 | 대화형 AI, 문서 이해 |
ChatGLM-6B / ChatGLM-6B v1.5 | Zhipu AI | 6B 파라미터, 중국어 기반 | 6B | Apache-2.0 | 중국어 챗봇, 문서 생성 |
Phi‑3 | Microsoft | 2.7B–13B 파라미터, 파워풀 & 저전력 | 2.7B, 3.7B, 6.7B, 13B | MIT | 교육용, 파인튜닝 |
CodeGen | Salesforce | 코드 생성에 특화된 2.5B–12B 파라미터 | 2.5B, 6B, 12B | Apache-2.0 | 코드 자동 완성, 디버깅 |
Gemma (Google) | 2.2B, 9B 파라미터, 연구용 | 2.2B, 9B | Apache-2.0 | 연구, 벤치마크 | |
Dolly (by Databricks) | Databricks | 6B 파라미터, 대화형 모델 | 6B | MIT | 교육, 챗봇 |
사용 팁
-
모델 선택
- 작은 모델(≤7B) : 리소스가 제한된 서버에서 빠르게 실행, 파인튜닝이 쉬움.
- 중간 크기(7B–13B) : 대부분의 연구 및 상용 챗봇에 적합.
- 큰 모델(>30B) : 최고 성능을 원하지만, GPU 메모리(48GB+)와 전력 소모가 큼.
-
라이선스 확인
대부분은 Apache‑2.0이나 MIT로 공개되지만, 사용 목적(상업용 등)에 따라 세부 조건을 검토하세요. -
파인튜닝
- Hugging Face
transformers
라이브러리와accelerate
,trl
등 툴을 사용하면 GPU 클러스터에서 손쉽게 파인튜닝할 수 있음. - 데이터 정제(토크나이징, 라벨링)를 신경써야 모델 성능이 크게 좌우됩니다.
- Hugging Face
-
배포
torchserve
,ONNX Runtime
,FastAPI
등을 활용해 REST API 형태로 배포하면 손쉽게 서비스화할 수 있습니다.- Cloud 서비스(예: AWS SageMaker, Azure ML, GCP Vertex AI)에서도 위 모델을 실행 가능하도록 컨테이너화가 편리합니다.
-
성능 개선
- LoRA(Low‑Rank Adaptation), Adapter 기법을 활용하면 파인튜닝 데이터량을 줄이고도 좋은 성능을 낼 수 있습니다.
- FlashAttention, bitsandbytes(8‑bit quantization) 같은 라이브러리를 이용하면 메모리 사용량을 크게 줄일 수 있습니다.
Quick Reference 링크
- Hugging Face Model Hub: https://huggingface.co/models
- EleutherAI GitHub: https://github.com/EleutherAI
- Meta AI Research: https://ai.meta.com/llama
- Mistral AI: https://mistral.ai
- OpenAI ChatGPT (for comparison): https://openai.com
필요한 모델을 직접 실행해 보고, 특정 도메인에 맞는 파인튜닝을 진행하면 가장 좋은 성과를 얻을 수 있습니다. 추가로 궁금한 점이 있으면 언제든 물어보세요! G