걍블로그
Diffusion 기반의 Text 생성 실험2차 수정 본문
- 1차 수정에 대한 결과 그래프(아래)를 보면서, 두가지 의미를 생각했다. 1. Train Data도 Validation으로 가치가 있다 : 왜냐면 그래프를 봤을 때, 데이터를 외웠다고 볼수 없다. 애초에 에폭 단위로 찍은게 아니라 Unseen Train Data이기도 해서 문제가 없다는 가정을 어느정도 뒷받침 해줄 수 있어 보임. 2. 그래프는 10000번의 iteraion 마다 그래프를 업데이트 하고 있다. 아래 그래프 상으로 12만번 학습한 결과로 loss가 증가한 것을 볼 수 있는데, 이는 model이 학습을 못했다고 볼 수 있는데 학습률이 커서 생긴 문제로 추정을 했기 때문에 학습률을 낮출 필요가 있다(물론 validation은 학습을 하면서 loss가 증가 될 수 있는것은 일부 사실이지만, 아래의 경우 loss 증가폭이 매우 큰 부분과 전체적인 경향성이 loss가 감소하는 결과나 나타나지 않는 부분과 진동폭이 큰 부분을 모델 학습이 실패 했다는 근거로 생각한다).
결론 : 일단 구성은 의미가 있음 + 학습률 낮춰서 재학습 진행
결과
다소 효과가 있다고 보여짐 -> loss가 줄었음
근데.... 진동이 생가보다 큼.... 중간에 큰 loss가 있고 이로 인해서 그래프가 망가지는 기존의 가설이 그대로 적용된거 같긴함...! 그래서 조금 더 낮춰서 다시 해보기!
'인공지능 > 실험 해보기' 카테고리의 다른 글
LLAMA 모델을 활용한 문법 교정 모델 만들기 실험 2차 실험 가설 설정 (0) | 2023.06.12 |
---|---|
Diffusion 기반의 Text 생성 실험2차 결과 (0) | 2023.06.12 |
Diffusion 기반의 Text 생성 실험1차 수정 (0) | 2023.06.09 |
Diffusion 기반의 Text 생성 실험1차 (0) | 2023.06.05 |
Text 생성을 위한 Diffusion 모델 구조에 대한 고민 (0) | 2023.06.02 |