어떻게 나아갈 것인가.
| 작성일 | 2026년 02월 05일 |
|---|---|
| 수정일 | 2026년 03월 06일 |
| 카테고리 | 기타 |
| 태그 | |
| 원본 | https://croot.notion.site/2fe6063e659080648cfaf2c32409c869 |
용어
GPQA
GPQA(Graduate-level Google-Proof Q&A Benchmark)는 인공지능 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크
구글에서 개발한 이 테스트는 물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성
HumanEval
OpenAI가 2021년 제안한, 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위한 표준 벤치마크 데이터셋
164개 데이터셋으로 Python 코드 일부를 문제로 주어 나머지를 채워넣는 형태로 제공
문제 구성요소:
- Function signature: 함수명과 매개변수를 가지는 함수 정의
- Text description: 요구기능 설명 (docstring)
- Function body: 모델이 코드를 생성하여 채워야하는 빈 공간
- Canonical solution: 올바른 함수 참조 구현
- A set of unit tests: 코드 정확성을 검증하기 위한 일반적인 경우와 Edge case를 모두 포함한 단위 테스트
모델 평가 방법론:
- pass@1: 가장 주요하고 널리 사용되는 평가 지표로, 첫 번째 시도에서 문제를 해결한 비율을 의미
- pass@k: 일반적인 경우에 사용되는 지표로, k개의 시도 중 최소 하나라도 모든 테스트를 통과한 문제의 비율을 의미
MATH 벤치마크
수학 문제 해결 능력을 측정하기 위해 고등학교 수학 경시 대회 수준의 12,500개 문제로 구성한 벤치마크.
Fill-in-the-Middle
텍스트의 중간을 채우는 학습/평가 방식. 삽입 중심의 편집형 LLM 구축을 위한 방식
모델 스펙
Qwen2.5-Coder
| 항목 | 스펙 |
|---|---|
| 파라미터 범위 | 0.5B ~ 32B (6가지 선택) |
| 지원 언어 | 92개 프로그래밍 언어 |
| 컨텍스트 윈도우 | 32K ~ 128K 토큰 |
| HumanEval 점수 | 91.0% (32B), 88.4% (7B) |
| 학습 데이터 | 5.5T 토큰 |
| 라이선스 | Apache 2.0 (상업적 이용 가능) |
DeepSeek-Coder-V2
| 항목 | 스펙 |
|---|---|
| 파라미터 | 236B (21B 활성화) + 16B Lite (2.4B 활성화) |
| 지원 언어 | 338개 프로그래밍 언어 |
| 컨텍스트 윈도우 | 128K 토큰 (전체 레포지토리 분석 가능) |
| HumanEval | 90.2% (Instruct), 81.1% (Lite) |
| MATH 벤치마크 | 75.7% (수학적 추론 강점) |
| 학습 데이터 | 6T 토큰 추가 학습 |
| 라이선스 | MIT (자유로운 상업 이용) |
Codestral (Mistral AI)
| 항목 | 스펙 |
|---|---|
| 파라미터 | 22B |
| 지원 언어 | 80개 이상 |
| 컨텍스트 윈도우 | 32K 토큰 |
| HumanEval | 86.6% |
| Fill-in-the-Middle | 95.3% (압도적 1위) |
| 추론 속도 | 3.31 t/s (M2 Air) |
| 라이선스 | MNPL |
Phi-4 (Microsoft)
| 항목 | 스펙 |
|---|---|
| 파라미터 | 14B (Llama 70B보다 1/5 작음) |
| AIME 2025 | 82.5% (수학 올림피아드 수준) |
| GPQA (과학) | 56.1% |
| 컨텍스트 윈도우 | 16K 토큰 |
| 학습 방법 | 합성 데이터 + 추론 최적화 |
| 라이선스 | MIT |
StarCoder2
| 항목 | 스펙 |
|---|---|
| 파라미터 | 3B, 7B, 15B (3가지 선택) |
| 지원 언어 | 600개 이상 |
| 컨텍스트 윈도우 | 16K 토큰 |
| 학습 데이터 | 4.1T tokens |
| 라이선스 | Apache 2.0 |
참고
https://peekaboolabs.ai/blog/local-llm-coding-productivity-tools
Previous Jan 26, 2026
« N사 FrontEnd 직무테스트 복기
« N사 FrontEnd 직무테스트 복기
Mar 4, 2026 Next
챗봇 기록 »
챗봇 기록 »