LLM(대규모 언어 모델, Large Language Model)을 특정 도메인에 효과적으로 적용하기 위해서는 몇 가지 중요한 방법론과 고려사항이 있다.
각 도메인에 맞는 최적의 방법을 선택하는 것이 중요한데, 아래 표를 봐보면 비용측면에서는 파인튜닝 비용이 비싸지만 성능은 그만큼 값을하는 결과를 보인다. 다만 매번 업데이트를 해줘야하기에 rag 방법을 썩어줄 필요가 있다.
https://www.youtube.com/watch?v=WWaPGDS7ZQs
SK TECH SUMMIT 2023에서 발표된 내용으로. PEFT와 RAG PoC를 각각 진행한 결과, PEFT 단독 사용 시 데이터 수가 많아질수록 정답 비율이 증가하는 경향을 확인했지만, 지속적인 fine-tuning이 필요하고 망각 대응이 어려우며 원본 위치나 첨부파일 제공이 어렵다는 한계로 RAG 결합이 필요하다는 결과가 도출되었다.
- 일반적인 언어모델은 무슨 데이터로 학습하나?
KLUE: Korean Language Understanding Evaluation (Park et al., 2021)
대부분의 사전학습 모델들은 News, Wiki, Book, Web Crawl 정보는 이미 학습되었을 확률이 높다.
그러기에 데이터의 중복을 피해서 진짜 Domain-Specific한 데이터를 구축해야 한다.
- 도메인 특화 언어모델을 만들 때 무엇을 고려해야 하나?
Data overlapDon”t Stop Pretraining: Adapt Language Models to Domains and Tasks (Gururangan et al., 2020)
News, Reviews, BioMed, Computer Science 도메인 데이터를 비교해봤는데 News, Reviews 데이터가 40%로 유사함을 보임
Data volumeFinBERT: Financial Sentiment Analysis with Pre-trained Language Models (Araci, 2019)
데이터의 양이 특정 임계 값을 넘어가면 정확도는 크게 차이가 없음
학습 전 데이터의 양을 계산 해라
UTF-8 기준 한글, 한자: 3 Byte 영어, 숫자, 공백: 1 Byte
좌측의 뉴스는 4293Byte = 0.004 MB
1GB를 모으려면 256000개의 뉴스가 필요함 그러나 모든 뉴스가 예시만큼 길지 않다.
학습데이터를 많이 못 모으겠다면 ?
Tokenizer를 수정하는 것도 방법 기존에 없는 voca를 추가해서 [UNK]를 개선 하면 됨
- 도메인 특화 언어모델이 효과는 있나?
When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset (Zheng et al., 2021)
단순한 Task라면 성능 향상이 크지가 않다.
LEGAL-BERT: The Muppets straight out of Law School (Chalkidis et al., 2020)
결론은
먼저 해결하려는 Task의 난이도를 파악해보고 쉬운 난이도라면Base-model를 이용한 RAG를 사용
반대로 난이도가 어렵다면도메인 특화 언어모델을 이용해 파인튜닝과 RAG 구축이 필요하다.
전문 도메인 데이터로 평가해보니 Base-model이 못넘은 임계값 점수를 도메인 특화 모델이 넘기는 결과를 보였다.