Croot Blog

Home About Tech Hobby Archive

⚠️

이 블로그의 모든 포스트는 Notion 데이터베이스를 자동 변환하여 작성 되었습니다.
따라서 문서에 따라 깨져 보일 수 있습니다.
더 많은 내용이 궁금하시다면 👀 Notion 보러가기

어떻게 나아갈 것인가.

용어

GPQA

GPQA(Graduate-level Google-Proof Q&A Benchmark)는 인공지능 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크

구글에서 개발한 이 테스트는 물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성

HumanEval

OpenAI가 2021년 제안한, 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위한 표준 벤치마크 데이터셋

164개 데이터셋으로 Python 코드 일부를 문제로 주어 나머지를 채워넣는 형태로 제공

문제 구성요소:

  • Function signature: 함수명과 매개변수를 가지는 함수 정의
  • Text description: 요구기능 설명 (docstring)
  • Function body: 모델이 코드를 생성하여 채워야하는 빈 공간
  • Canonical solution: 올바른 함수 참조 구현
  • A set of unit tests: 코드 정확성을 검증하기 위한 일반적인 경우와 Edge case를 모두 포함한 단위 테스트

모델 평가 방법론:

  • pass@1: 가장 주요하고 널리 사용되는 평가 지표로, 첫 번째 시도에서 문제를 해결한 비율을 의미
  • pass@k: 일반적인 경우에 사용되는 지표로, k개의 시도 중 최소 하나라도 모든 테스트를 통과한 문제의 비율을 의미

MATH 벤치마크

수학 문제 해결 능력을 측정하기 위해 고등학교 수학 경시 대회 수준의 12,500개 문제로 구성한 벤치마크.

Fill-in-the-Middle

텍스트의 중간을 채우는 학습/평가 방식. 삽입 중심의 편집형 LLM 구축을 위한 방식


모델 스펙

Qwen2.5-Coder

항목 스펙
파라미터 범위 0.5B ~ 32B (6가지 선택)
지원 언어 92개 프로그래밍 언어
컨텍스트 윈도우 32K ~ 128K 토큰
HumanEval 점수 91.0% (32B), 88.4% (7B)
학습 데이터 5.5T 토큰
라이선스 Apache 2.0 (상업적 이용 가능)

DeepSeek-Coder-V2

항목 스펙
파라미터 236B (21B 활성화) + 16B Lite (2.4B 활성화)
지원 언어 338개 프로그래밍 언어
컨텍스트 윈도우 128K 토큰 (전체 레포지토리 분석 가능)
HumanEval 90.2% (Instruct), 81.1% (Lite)
MATH 벤치마크 75.7% (수학적 추론 강점)
학습 데이터 6T 토큰 추가 학습
라이선스 MIT (자유로운 상업 이용)

Codestral (Mistral AI)

항목 스펙
파라미터 22B
지원 언어 80개 이상
컨텍스트 윈도우 32K 토큰
HumanEval 86.6%
Fill-in-the-Middle 95.3% (압도적 1위)
추론 속도 3.31 t/s (M2 Air)
라이선스 MNPL

Phi-4 (Microsoft)

항목 스펙
파라미터 14B (Llama 70B보다 1/5 작음)
AIME 2025 82.5% (수학 올림피아드 수준)
GPQA (과학) 56.1%
컨텍스트 윈도우 16K 토큰
학습 방법 합성 데이터 + 추론 최적화
라이선스 MIT

StarCoder2

항목 스펙
파라미터 3B, 7B, 15B (3가지 선택)
지원 언어 600개 이상
컨텍스트 윈도우 16K 토큰
학습 데이터 4.1T tokens
라이선스 Apache 2.0

참고

https://peekaboolabs.ai/blog/local-llm-coding-productivity-tools