본문 바로가기

offline batched inference

(1)

vLLM - 01. Getting Started vLLM란?Github: https://github.com/vllm-project/vllm?tab=readme-ov-fileDocumentation: https://docs.vllm.ai/en/stable/대규모 언어 모델(LLM)의 효율적인 실행을 위한 오픈소스 시스템입메모리 사용 최적화와 고성능 추론을 목표로 설계되었습니다.기존보다 더 큰 언어 모델을 적은 자원으로도 실행할 수 있으며, 빠른 응답 속도를 가짐✔️ PagedAttentionvLLM의 핵심 기술 중 하나로 GPU 메모리를 작은 블록으로 나누어 관리불필요한 메모리 할당을 줄이고, 동시에 여러 요청을 처리설치✔️ 설치 옵션Installation (기본 설치): 일반적인 GPU 환경에서의 기본 설치 방법. CUDA가 설치된 환경을 위한 것.I..

이전 1 다음

티스토리툴바