AI Engineering 책의 저자와의 질답 요약

Matt Turck이 호스팅하는 팟캐스트에 AI Engineering: Building Applications with Foundation Models 책의 저자인 Chip Huyen의 인터뷰 중 몇 가지 흥미로운 질답이 있어 적어 보았다.

A: 가장 큰 차이점은 접근성이다.

기존 ML application을 사용하기 위해서는 사용자가 특정 도메인의 데이터를 학습해야하는 한계가 있었기에 접근성이 좋지 않았다.

지금의 LLM은 접근성이 좋아져 공개된 모델을 누구나 사용할 수 있고 그것을 향상시킬 수도 있다.

다음으로는 평가이다.

이 평가의 난이도는 ML과 LLM의 도메인이 달라서 발생한다고도 볼 수 있다.

예를 들어 예전 ML은 주어진 메일이 스팸인지 아닌지를 예측하는 문제에 집중했다면, LLM은 “이 책을 요약해봐”와 같은 문제를 다루기 때문에 이에 대한 정확도를 평가하는 것이 어려워졌다.

이런 종류의 평가는 평가자가 직접 책을 읽어봐야 수행할 수 있다.

LLM의 성능이 올라갈수록 인류 중 평가를 할 수 있는 사람의 비율이 줄어들 것이다.

어플리케이션 개발 방향에도 차이가 있다.

현재의 개발은 LLM을 통해 프로덕트를 만들어 아이디어를 검증한 후에 데이터를 모아 분야에 특화된 모델을 학습한다.

이 경향은 예전에 데이터를 모아 모델을 학습하고 프로덕트 개발로 넘어가던 방향과는 반대다.

마지막으로는 학습의 스케일이다.

기존 ML은 학습을 위해 사람이 일일이 데이터에 레이블링을 해야했다.

LLM은 semi-supervised 학습을 통해 자연스러운 텍스트나 코드를 학습 데이터로 활용하면 된다.

이 특성이 LLM의 학습의 스케일에 큰 도움이 되었다.

LLM의 파라미터 수가 증가하면 모델의 표현력, 학습 용량, 패턴 일반화 능력이 증가한다.

더 많은 뉴런과 연결이 생성되면서 데이터에서 더 복잡한 패턴을 학습할 수 있게 되는 것이다.

파라미터는 신경망이 학습하는 가중치(weight)와 편향(biases)의 개수를 의미한다.

예를 들어 1M 파라미터를 가진 작은 모델이 "고양이는 귀여운 동물이다"와 같은 문장을 표현할 수 있다면,

100B 파라미터를 가진 큰 모델은 "고양이는 인간과 오랜 역사정 관계를 맺어온 동물이며, 종에 따라 다양한 성격과 습성을 보인다"와 같은 복잡한 문맥을 가진 문장을 표현할 수 있다.

회사가 제공하는 LLM 서비스의 경우 시스템 프롬프트라는 사용자의 입력을 후처리하여 금기시되는 답변들을 차단하는 중간 계층이 존재한다. (그 밖의 다른 안전장치들이 존재한다.)

만약 이런 것이 없는 오픈소스 모델을 그대로 활용할 경우 서비스 사용자에게 인종차별, 성차별, 정치 편향 등 논란이 될 수 있는 답변을 제공할 확률이 높아진다.

AI 판사는 일반적인 인간의 판단과 굉장히 연결되어 있는 판결을 내릴 수 있지만 궁극적으로 주관적인 판결을 내릴 수 없다.

다른 말로는 프롬프트와 모델의 의존성이 높아 재현가능성이 높지 않다는 의미이기도 하다.

다른 측면으로는 시간이 지나 모델이 발전할수록 판결의 결과 또한 바뀔 수도 있다.

이는 판결의 일관성을 지킬 수 없다는 측면에서 매우 치명적이다.

개발자 인생 로그