헬창 개발자

도메인 특화 언어 모델 구축 어떤 방법이 좋을까? 본문

공부방

도메인 특화 언어 모델 구축 어떤 방법이 좋을까?

찬배 2024. 9. 4. 16:12

 

 

LLM(대규모 언어 모델, Large Language Model)을 특정 도메인에 효과적으로 적용하기 위해서는 몇 가지 중요한 방법론과 고려사항이 있다.

 

각 도메인에 맞는 최적의 방법을 선택하는 것이 중요한데, 아래 표를 봐보면 비용측면에서는 파인튜닝 비용이 비싸지만 성능은 그만큼 값을하는 결과를 보인다. 다만 매번 업데이트를 해줘야하기에 rag 방법을 썩어줄 필요가 있다.

 

https://www.youtube.com/watch?v=WWaPGDS7ZQs

SK TECH SUMMIT 2023에서 발표된 내용으로. PEFT와 RAG PoC를 각각 진행한 결과, PEFT 단독 사용 시 데이터 수가 많아질수록 정답 비율이 증가하는 경향을 확인했지만, 지속적인 fine-tuning이 필요하고 망각 대응이 어려우며 원본 위치나 첨부파일 제공이 어렵다는 한계로 RAG 결합이 필요하다는 결과가 도출되었다.

 

- 일반적인 언어모델은 무슨 데이터로 학습하나?

KLUE: Korean Language Understanding Evaluation (Park et al., 2021)

대부분의 사전학습 모델들은 News, Wiki, Book, Web Crawl 정보는 이미 학습되었을 확률이 높다.

그러기에 데이터의 중복을 피해서 진짜 Domain-Specific한 데이터를 구축해야 한다.

 

- 도메인 특화 언어모델을 만들 때 무엇을 고려해야 하나?

  • Data overlap 
    Don”t Stop Pretraining: Adapt Language Models to Domains and Tasks (Gururangan et al., 2020)

News, Reviews, BioMed, Computer Science 도메인 데이터를 비교해봤는데 News, Reviews 데이터가 40%로 유사함을 보임

 

  • Data volume
    FinBERT: Financial Sentiment Analysis with Pre-trained Language Models (Araci, 2019)
    데이터의 양이 특정 임계 값을 넘어가면 정확도는 크게 차이가 없음

  • 학습 전 데이터의 양을 계산 해라
    • UTF-8 기준 한글, 한자: 3 Byte 영어, 숫자, 공백: 1 Byte
    • 좌측의 뉴스는 4293Byte = 0.004 MB
    • 1GB를 모으려면 256000개의 뉴스가 필요함 그러나 모든 뉴스가 예시만큼 길지 않다.

     

    학습데이터를 많이 못 모으겠다면 ?

    Tokenizer를 수정하는 것도 방법 기존에 없는 voca를 추가해서  [UNK]를 개선 하면 됨

 

- 도메인 특화 언어모델이 효과는 있나?

When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset (Zheng et al., 2021)

단순한 Task라면 성능 향상이 크지가 않다.

LEGAL-BERT: The Muppets straight out of Law School (Chalkidis et al., 2020)

 
결론은 
 

먼저 해결하려는 Task의 난이도를 파악해보고 쉬운 난이도라면 Base-model를 이용한 RAG를 사용

반대로 난이도가 어렵다면 도메인 특화 언어모델을 이용해 파인튜닝과 RAG 구축이 필요하다.

 

전문 도메인 데이터로 평가해보니 Base-model이 못넘은 임계값 점수를 도메인 특화 모델이 넘기는 결과를 보였다.

Comments