[Vicuna] ChatGPT 90% 품질 오픈 소스 챗봇

비쿠나: UC 버클리, CMU, 스탠포드 및 UC 샌디에이고 출신의 팀원으로 구성된 팀

GPT-4를 사용한 재미 있고 비 과학적인 평가에 따르면. 더 엄격한 평가가 필요합니다.

ShareGPT에서 수집한 사용자 공유 대화에서 LLaMA를 미세 조정하여 훈련된 오픈 소스 챗봇인 Vicuna-13B를 소개합니다. GPT-4를 심사위원으로 사용한 예비 평가에 따르면 Vicuna-13B는 OpenAI ChatGPT 및 Google Bard의 90%* 이상의 품질을 달성하는 반면 LLaMA 및 Stanford Alfaca와 같은 다른 모델은 90%* 이상의 사례에서 능가하는 것으로 나타났습니다. Vicuna-13B 훈련 비용은 약 $ 300입니다. 교육 및 제공 코드는 온라인 데모와 함께 비상업적 용도로 공개적으로 사용할 수 있습니다.

Vicuna (generated by stable diffusion 2.1)

비쿠나는 얼마나 좋은가요?

우리는 벤치 마크 질문에 대한 Alpaca 및 Vicuna 응답의 예를 제시합니다. 70K 사용자 공유 ChatGPT 대화로 Vicuna를 미세 조정 한 후 Vicuna가 ChatGPT와 동등한 품질로 알파카 (아래 예 참조)에 비해 더 자세하고 구조화 된 답변을 생성 할 수 있음을 발견했습니다.

그러나 챗봇을 평가하는 것은 결코 간단한 작업이 아닙니다. 최근 GPT-4의 발전으로 인해 그 기능이 벤치마크 생성 및 성능 평가를 위한 자동화된 평가 프레임워크를 가능하게 할 수 있는 인간과 유사한 수준에 도달했는지 궁금합니다. 초기 조사 결과에 따르면 GPT-4는 챗봇의 답변을 비교할 때 매우 일관된 순위와 자세한 평가를 생성할 수 있습니다(위의 GPT-4 판단 예 참조). 그림 4에 요약된 GPT-1를 기반으로 한 예비 평가에 따르면 Vicuna는 Bard/ChatGPT의 90%* 기능을 달성했습니다. 이 제안된 프레임워크는 챗봇 평가를 자동화할 수 있는 잠재력을 보여주지만 아직 엄격한 접근 방식은 아닙니다. 챗봇에 대한 평가 시스템을 구축하는 것은 추가 연구가 필요한 미해결 질문으로 남아 있습니다. 자세한 내용은 평가 섹션에 나와 있습니다.

Figure 1. Relative Response Quality Assessed by GPT-4*

Online Demo

Try the Vicuna-13B demo here!

개요

대규모 언어 모델(LLM)의 급속한 발전은 챗봇 시스템에 혁명을 일으켜 OpenAI의 ChatGPT에서 볼 수 있듯이 전례 없는 수준의 인텔리전스를 제공했습니다. 그러나 인상적인 성능에도 불구하고 ChatGPT의 교육 및 아키텍처 세부 사항은 불분명하여 이 분야의 연구 및 오픈 소스 혁신을 방해합니다. Meta LLaMA 및 스탠포드 알파카 프로젝트에서 영감을 받아 향상된 데이터 세트와 사용하기 쉽고 확장 가능한 인프라로 뒷받침되는 오픈 소스 챗봇인 Vicuna-13B를 소개합니다. Vicuna-13B는 ShareGPT.com 에서 수집한 사용자 공유 대화에서 LLaMA 기본 모델을 미세 조정하여 스탠포드 알파카와 같은 다른 오픈 소스 모델에 비해 경쟁력 있는 성능을 입증했습니다. 이 블로그 게시물은 Vicuna-13B의 성능에 대한 예비 평가를 제공하고 교육 및 서비스 인프라에 대해 설명합니다. 또한 커뮤니티가 온라인 데모와 상호 작용하여 이 챗봇의 기능을 테스트하도록 초대합니다.

그림 2는 작업에 대한 개요를 제공합니다. 시작하기 위해 사용자가 ChatGPT 대화를 공유 할 수있는 웹 사이트 인 ShareGPT.com 에서 약 70K 대화를 수집했습니다. 다음으로, Alpaca에서 제공하는 교육 스크립트를 개선하여 다중 라운드 대화와 긴 시퀀스를 더 잘 처리했습니다. 훈련은 파이토치 FSDP로 하루 만에 8개의 A100 GPU에서 수행되었습니다. 데모를 제공하기 위해 경량 분산 제공 시스템을 구현했습니다. 80개의 다양한 질문 세트를 만들고 GPT-4를 활용하여 모델 출력을 판단하여 모델 품질에 대한 예비 평가를 수행했습니다. 두 개의 서로 다른 모델을 비교하기 위해 각 모델의 출력을 각 질문에 대한 단일 프롬프트로 결합합니다. 그런 다음 프롬프트가 GPT-4로 전송되어 어떤 모델이 더 나은 응답을 제공하는지 평가합니다. LLaMA, 알파카, ChatGPT 및 Vicuna의 자세한 비교는 아래 표 1에 나와 있습니다.

Table 1. Comparison between several notable models

Model Name	LLaMA	Alpaca	Vicuna	Bard/ChatGPT
Dataset	Publicly available datasets (1T token)	Self-instruct from davinci-003 API (52K samples)	User-shared conversations (70K samples)	N/A
Training code	N/A	Available	Available	N/A
Evaluation metrics	Academic benchmark	Author evaluation	GPT-4 assessment	Mixed
Training cost (7B)	82K GPU-hours	$500 (data) + $100 (training)	$140 (training)	N/A
Training cost (13B)	135K GPU-hours	N/A	$300 (training)	N/A

Training

Vicuna는 공개 API를 사용하여 ShareGPT.com 에서 수집한 약 70K개의 사용자 공유 대화를 사용하여 LLaMA 기본 모델을 미세 조정하여 만들어집니다. 데이터 품질을 보장하기 위해 HTML을 다시 마크다운으로 변환하고 일부 부적절하거나 품질이 낮은 샘플을 필터링합니다. 또한 긴 대화를 모델의 최대 컨텍스트 길이에 맞는 더 작은 세그먼트로 나눕니다.

우리의 훈련 레시피는 다음과 같은 개선 사항을 통해 스탠포드의 알파카 위에 구축됩니다.

메모리 최적화: Vicuna가 긴 컨텍스트를 이해할 수 있도록 alpaca의 최대 컨텍스트 길이를 512에서 2048로 확장하여 GPU 메모리 요구 사항을 크게 늘립니다. 우리는 그라디언트 체크 포인트와 플래시 어텐션을 활용하여 메모리 압력을 해결합니다.
다중 라운드 대화: 다중 라운드 대화를 고려하여 훈련 손실을 조정하고 챗봇의 출력에 대해서만 미세 조정 손실을 계산합니다.
스팟 인스턴스를 통한 비용 절감: 40배 더 큰 데이터 세트와 4배 더 큰 시퀀스 길이는 훈련 비용에 상당한 문제를 제기합니다. SkyPilot 관리형 스팟을 사용하여 선점 및 자동 영역 전환을 위한 자동 복구 기능이 있는 저렴한 스팟 인스턴스를 활용하여 비용을 절감합니다. 이 솔루션은 7B 모델을 $500에서 약 $140로, 13B 모델을 약 $1K에서 $300로 훈련하는 비용을 절감합니다.

Serving

우리는 분산 된 작업자와 함께 여러 모델을 제공 할 수있는 서빙 시스템을 구축합니다. 온프레미스 클러스터와 클라우드 모두에서 GPU 작업자의 유연한 플러그인을 지원합니다. SkyPilot의 내결함성 컨트롤러 및 관리형 스팟 기능을 활용함으로써 이 서빙 시스템은 여러 클라우드의 저렴한 스팟 인스턴스와 잘 작동하여 서빙 비용을 절감할 수 있습니다. 현재 경량 구현이며 최신 연구를 더 많이 통합하기 위해 노력하고 있습니다.

챗봇을 평가하는 방법?

AI 챗봇을 평가하는 것은 언어 이해, 추론 및 상황 인식을 검토해야 하기 때문에 어려운 작업입니다. AI 챗봇이 더욱 발전함에 따라 현재의 공개 벤치마크로는 더 이상 충분하지 않을 수 있습니다. 예를 들어, 스탠포드의 알파카에서 사용 된 평가 데이터 세트 인 자기 지시는 SOTA 챗봇에 의해 효과적으로 응답 될 수 있으므로 인간이 성능의 차이를 식별하기가 어렵습니다. 더 많은 제한 사항에는 교육/테스트 데이터 오염과 새로운 벤치마크를 만드는 데 드는 잠재적으로 높은 비용이 포함됩니다. 이러한 문제를 해결하기 위해 GPT-4 기반의 평가 프레임워크를 제안하여 챗봇 성능 평가를 자동화합니다.

먼저 페르미 문제, 역할극 시나리오, 코딩/수학 과제 등 4가지 질문 범주를 고안해 챗봇 성능의 다양한 측면을 테스트했습니다. 신중한 프롬프트 엔지니어링을 통해 GPT-4는 기본 모델이 어려움을 겪는 다양하고 도전적인 질문을 생성할 수 있습니다. 카테고리 당 4 개의 질문을 선택하고 LLaMA, Alpaca, ChatGPT, Bard 및 Vicuna의 4 개 챗봇에서 답변을 수집합니다. 그런 다음 GPT-<>에 유용성, 관련성, 정확성 및 세부 정보를 기반으로 답변의 품질을 평가하도록 요청합니다. 우리는 GPT-<>가 비교적 일관된 점수를 산출 할 수있을뿐만 아니라 그러한 점수가 주어지는 이유에 대한 자세한 설명을 생성 할 수 있음을 발견했습니다 (자세한 예제 링크). 그러나 GPT-<>는 코딩 / 수학 작업을 판단하는 데 그다지 좋지 않습니다.

Figure 3. Response Comparison Assessed by GPT-4

그림 3은 모든 기준선과 Vicuna 간의 비교 결과를 보여줍니다. GPT-4는 질문의 90% 이상에서 최첨단 오픈 소스 모델(LLaMA, Alpaca)보다 Vicuna를 선호하며 독점 모델(ChatGPT, Bard)에 비해 경쟁력 있는 성능을 달성합니다. 질문의 45%에서 GPT-4는 Vicuna의 응답을 ChatGPT의 응답보다 좋거나 동등하다고 평가합니다. GPT-4는 10점 척도로 각 응답에 정량적 점수를 할당하므로 80개의 질문에 대해 각 모델에서 얻은 점수를 합산하여 각 (기준선, Vicuna) 비교 쌍의 총점을 계산합니다. 표 2에서 볼 수 있듯이 Vicuna의 총 점수는 ChatGPT의 92%입니다. 최근의 발전에도 불구하고 이러한 챗봇은 기본적인 수학 문제로 어려움을 겪거나 코딩 능력이 제한되는 등 여전히 한계에 직면해 있습니다.

Table 2. Total Scores Assessed by GPT-4.

Baseline	Baseline Score	Vicuna Score
LLaMA-13B	513.0	694.0
Alpaca-13B	583.0	704.0
Bard	664.0	655.5
ChatGPT	693.0	638.0

이 제안된 평가 프레임워크는 챗봇을 평가할 수 있는 가능성을 보여주지만, 대규모 언어 모델은 환각을 일으키기 쉽기 때문에 아직 엄격하거나 성숙한 접근 방식은 아닙니다. 챗봇에 대한 포괄적이고 표준화된 평가 시스템을 개발하는 것은 추가 연구가 필요한 미해결 질문으로 남아 있습니다.

Limitations

우리는 다른 대형 언어 모델과 마찬가지로 Vicuna에는 특정 제한 사항이 있음을 발견했습니다. 예를 들어, 추론이나 수학과 관련된 작업에 능숙하지 않으며 자신을 정확하게 식별하거나 출력의 사실적 정확성을 보장하는 데 한계가있을 수 있습니다. 또한 안전성을 보장하거나 잠재적인 독성 또는 편향을 완화할 수 있을 만큼 충분히 최적화되지 않았습니다. 안전 문제를 해결하기 위해 OpenAI 조정 API를 사용하여 온라인 데모에서 부적절한 사용자 입력을 필터링합니다. 그럼에도 불구하고 우리는 Vicuna가 이러한 한계를 해결하기위한 향후 연구를위한 열린 출발점이 될 것으로 기대합니다.

Release

첫 번째 릴리스에서는 GitHub 리포지토리에서 학습, 서비스 및 평가 코드를 공유합니다. https://github.com/lm-sys/FastChat. 원래 LLaMA 가중치를 기반으로 하는 델타 가중치 버전을 제공하여 모델 가중치를 릴리스할 계획이지만 여전히 적절한 방법을 찾고 있습니다. 데이터 세트를 해제할 계획은 없습니다. Discord 서버에 가입하고 트위터를 팔로우 하여 최신 업데이트를 받으세요.

License

온라인 데모는 LLaMA의 모델 라이선스, OpenAI에서 생성된 데이터의 이용 약관 및 ShareGPT의 개인 정보 보호 관행에 따라 비상업적 용도로만 사용할 수 있는 연구 미리보기입니다. 잠재적 인 위반 사항을 발견하면 당사에 문의하십시오.
코드는 Apache 라이선스 2.0에 따라 릴리스됩니다.

The Team

이것은 UC Berkeley, CMU, Stanford, UC San Diego 및 MBZUAI를 포함한 여러 기관의 공동 작업자와의 공동 노력입니다.

Students (alphabetical order):
Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang

Advisors (alphabetical order):
Joseph E. Gonzalez, Ion Stoica, Eric P. Xing

Acknowledgment

BAIR의 Xinyang Geng, Hao Liu 및 Eric Wallace에게 감사드립니다. Xuecheng Li와 스탠포드 알파카 팀의 Tianyi Zhang은 통찰력있는 토론과 피드백을 제공합니다. BAIR는 챗봇 Koala에 대한 동시 작업을 위해 곧 또 다른 블로그 게시물을 올릴 예정입니다.

출처 : Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego (lmsys.org)

Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality

by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego

vicuna.lmsys.org

github : lm-sys/FastChat: The release repo for "Vicuna: An Open Chatbot Impressing GPT-4" (github.com)

GitHub - lm-sys/FastChat: The release repo for "Vicuna: An Open Chatbot Impressing GPT-4"

The release repo for "Vicuna: An Open Chatbot Impressing GPT-4" - GitHub - lm-sys/FastChat: The release repo for "Vicuna: An Open Chatbot Impressing GPT-4"

github.com

728x90

비쿠나: UC 버클리, CMU, 스탠포드 및 UC 샌디에이고 출신의 팀원으로 구성된 팀

비쿠나는 얼마나 좋은가요?

Online Demo

개요

Training

Serving

챗봇을 평가하는 방법?

Limitations

Release

License

The Team

Acknowledgment

티스토리툴바