헬창 개발자
도메인 특화 언어 모델 구축 어떤 방법이 좋을까? 본문
LLM(대규모 언어 모델, Large Language Model)을 특정 도메인에 효과적으로 적용하기 위해서는 몇 가지 중요한 방법론과 고려사항이 있다.
각 도메인에 맞는 최적의 방법을 선택하는 것이 중요한데, 아래 표를 봐보면 비용측면에서는 파인튜닝 비용이 비싸지만 성능은 그만큼 값을하는 결과를 보인다. 다만 매번 업데이트를 해줘야하기에 rag 방법을 썩어줄 필요가 있다.
SK TECH SUMMIT 2023에서 발표된 내용으로. PEFT와 RAG PoC를 각각 진행한 결과, PEFT 단독 사용 시 데이터 수가 많아질수록 정답 비율이 증가하는 경향을 확인했지만, 지속적인 fine-tuning이 필요하고 망각 대응이 어려우며 원본 위치나 첨부파일 제공이 어렵다는 한계로 RAG 결합이 필요하다는 결과가 도출되었다.
- 일반적인 언어모델은 무슨 데이터로 학습하나?
대부분의 사전학습 모델들은 News, Wiki, Book, Web Crawl 정보는 이미 학습되었을 확률이 높다.
그러기에 데이터의 중복을 피해서 진짜 Domain-Specific한 데이터를 구축해야 한다.
- 도메인 특화 언어모델을 만들 때 무엇을 고려해야 하나?
- Data overlap
News, Reviews, BioMed, Computer Science 도메인 데이터를 비교해봤는데 News, Reviews 데이터가 40%로 유사함을 보임
- Data volume
데이터의 양이 특정 임계 값을 넘어가면 정확도는 크게 차이가 없음
- 학습 전 데이터의 양을 계산 해라
- UTF-8 기준 한글, 한자: 3 Byte 영어, 숫자, 공백: 1 Byte
- 좌측의 뉴스는 4293Byte = 0.004 MB
- 1GB를 모으려면 256000개의 뉴스가 필요함 그러나 모든 뉴스가 예시만큼 길지 않다.
학습데이터를 많이 못 모으겠다면 ?
- 도메인 특화 언어모델이 효과는 있나?
단순한 Task라면 성능 향상이 크지가 않다.
먼저 해결하려는 Task의 난이도를 파악해보고 쉬운 난이도라면 Base-model를 이용한 RAG를 사용
반대로 난이도가 어렵다면 도메인 특화 언어모델을 이용해 파인튜닝과 RAG 구축이 필요하다.
전문 도메인 데이터로 평가해보니 Base-model이 못넘은 임계값 점수를 도메인 특화 모델이 넘기는 결과를 보였다.
'공부방' 카테고리의 다른 글
FastAPI Pydantic : 데이터 검증 및 설정 (1) | 2024.09.06 |
---|---|
How much need VRAM by using LLM? (0) | 2024.09.05 |
FastAPI : LLM 모델 서빙을 위한 API (1) | 2024.09.03 |
LoRA target_modules (0) | 2024.08.08 |
중첩된 리스트 평탄화 : python list flattening (0) | 2024.08.07 |