토. 8월 9th, 2025

대표적인 오픈소스 대형언어모델(LLM) 종류

모델명 개발자 / 출처 핵심 특징 모델 크기 (가장 흔한 버전) 라이선스 주된 활용 사례
GPT‑Neo / GPT‑NeoX EleutherAI GPT‑3와 유사한 Transformer 구조, 1.3B–20B 파라미터 1.3B, 2.7B, 6B, 20B Apache-2.0 텍스트 생성, 챗봇, 요약
GPT‑J EleutherAI 6B 파라미터, 고품질 자연어 생성 6B Apache-2.0 대화형 AI, 코드 생성
OPT (Open Pretrained Transformer) Meta GPT‑3 같은 구조, 125M–175B 파라미터 125M, 1.3B, 2.7B, 6B, 13B, 175B MIT 연구용, 벤치마킹
LLaMA (Large Language Model Meta AI) Meta 7B–65B 파라미터, 다양한 크기 7B, 13B, 33B, 65B LLAMA 2(2023)는 Meta/LLAMA 2 모델이 공개된 라이선스로 제공 학술 연구, 산업용 모델 파인튜닝
LLaMA 2 Meta 7B, 13B, 33B, 65B, 70B 파라미터 7B, 13B, 33B, 65B, 70B Apache-2.0 (Llama 2) 다양한 NLP 태스크, 파인튜닝
Mistral 7B / Mistral 12B Mistral AI 7B~12B 파라미터, 효율적 CUDA 지원 7B, 12B Apache-2.0 대화형 AI, 코드 생성, 번역
Falcon 40B TII (Technology Innovation Institute) 40B 파라미터, 뛰어난 성능 40B Apache-2.0 연구, 벤치마크
StableLM Stability AI (with EleutherAI) 7B–13B 파라미터, 텍스트 생성 중심 7B, 13B Apache-2.0 콘텐츠 생성, 챗봇
Bloom BigScience (연합 연구) 1.3B–176B 파라미터, 다국어 지원 176B GNU Affero GPL v3 다국어 NLP, 연구
InternLM (InternLM 1.0 / 2.0) Alibaba (InternLM) 7B–70B 파라미터, 대화형 AI 최적화 7B, 20B, 70B Apache-2.0 대화형 AI, 파인튜닝
Qwen 1.5 Alibaba (Qwen) 7B–200B 파라미터, 고성능, 다국어 7B, 32B, 72B, 140B, 200B Apache-2.0 대화형 AI, 문서 이해
ChatGLM-6B / ChatGLM-6B v1.5 Zhipu AI 6B 파라미터, 중국어 기반 6B Apache-2.0 중국어 챗봇, 문서 생성
Phi‑3 Microsoft 2.7B–13B 파라미터, 파워풀 & 저전력 2.7B, 3.7B, 6.7B, 13B MIT 교육용, 파인튜닝
CodeGen Salesforce 코드 생성에 특화된 2.5B–12B 파라미터 2.5B, 6B, 12B Apache-2.0 코드 자동 완성, 디버깅
Gemma (Google) Google 2.2B, 9B 파라미터, 연구용 2.2B, 9B Apache-2.0 연구, 벤치마크
Dolly (by Databricks) Databricks 6B 파라미터, 대화형 모델 6B MIT 교육, 챗봇

사용 팁

  1. 모델 선택

    • 작은 모델(≤7B) : 리소스가 제한된 서버에서 빠르게 실행, 파인튜닝이 쉬움.
    • 중간 크기(7B–13B) : 대부분의 연구 및 상용 챗봇에 적합.
    • 큰 모델(>30B) : 최고 성능을 원하지만, GPU 메모리(48GB+)와 전력 소모가 큼.
  2. 라이선스 확인
    대부분은 Apache‑2.0이나 MIT로 공개되지만, 사용 목적(상업용 등)에 따라 세부 조건을 검토하세요.

  3. 파인튜닝

    • Hugging Face transformers 라이브러리와 accelerate, trl 등 툴을 사용하면 GPU 클러스터에서 손쉽게 파인튜닝할 수 있음.
    • 데이터 정제(토크나이징, 라벨링)를 신경써야 모델 성능이 크게 좌우됩니다.
  4. 배포

    • torchserve, ONNX Runtime, FastAPI 등을 활용해 REST API 형태로 배포하면 손쉽게 서비스화할 수 있습니다.
    • Cloud 서비스(예: AWS SageMaker, Azure ML, GCP Vertex AI)에서도 위 모델을 실행 가능하도록 컨테이너화가 편리합니다.
  5. 성능 개선

    • LoRA(Low‑Rank Adaptation), Adapter 기법을 활용하면 파인튜닝 데이터량을 줄이고도 좋은 성능을 낼 수 있습니다.
    • FlashAttention, bitsandbytes(8‑bit quantization) 같은 라이브러리를 이용하면 메모리 사용량을 크게 줄일 수 있습니다.

Quick Reference 링크

필요한 모델을 직접 실행해 보고, 특정 도메인에 맞는 파인튜닝을 진행하면 가장 좋은 성과를 얻을 수 있습니다. 추가로 궁금한 점이 있으면 언제든 물어보세요! G

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다