Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

걍블로그

Diffusion 기반의 Text 생성 실험1차 수정 본문

인공지능/실험 해보기

Diffusion 기반의 Text 생성 실험1차 수정

애쉬용용 2023. 6. 9. 11:22

해야될 실험을 못하고 요즘 다른 작업들에 정신이 팔려서.... 다시 원래의 실험에 돌아왔다! 학습의 효율성을 더 높일 수 있는 방법!?을 고민해 보다가 몇가지 생각이 들었고 이것을 기반으로 작업 방향을 수정 하고자함.

 

   - 고민 사항 :

     1. LM-Head 부분을 발견 했는데 내가 굳이 이부분을 재학습할 필요가 있나? 기존 Pre-trained 모델이 훨씬 더 잘 학습 했을텐데?? -> 실제로 해보니까 원본 데이터를 잘 복원함 

     2. Decoder 부분의 Layer가 굳이 깊을 필요가 있나? 기존의 방법들도 Decoder 부분이 Transformer처럼 다른 도메인을 다루는 경우가 아니라 단순하기 Sequence의 의미를 해석할 때는 그렇게 깊게 하지는 않았음. 그래서 아키텍처를 조금 수정해볼 필요가 있을것이라고 판단이 들었음

     3. 학습 데이터 양이 많아서 1에폭을 도는것을 관찰하는 것이 어려움

 

-일차적인 아키텍처를 수정해서 다시 해보자

 - 데이터 구성 방향 수정 : 데이터에서 Validation을 제거했다! 데이터가 생각보다 많아서 1에폭을 도는데 시간이 너무 오래 걸렸다. 그래서 헛소리 같지만 unseen train data의 loss가 validaion을 대체 한다고 가정하고 진행하려고한다(데이터가 많아서 애초에 1에폭을 못돌기 때문에 가능한 가정이 아닐까라고 생각함). 그리고 보통은 validation 데이터로 잡아 줄 수 있는 overfitting 지점을 여기서는 없다고 가정할 것이기 때문에 가능한 접근이라고 생각한다. 여기서 무한히 많은 데이터(실제로 무한은 아닌데, 실험을 기준으로 1에폭을 못도니까....)를 기준으로 항상 새로운 정보를 학습하기 때문에(데이터가 outlier가 아니라는 가정을 그냥 했음) 항상 loss는 줄어들 것을 가정하기 때문이다. 즉, 가정이지만 loss는 무한히 줄어들 것이고 여기서 overfitting은 없을 것이기 때문이다. 근데 조금 여담이지만..... 실제로 NLP 프로젝트를 종종 하면서 이러한 현상을 볼 수 있었다. 데이터가 엄청 많으면 데이터를 외우지 못하기 때문에 오버피팅이 일어나지 않고 계속해서 loss가 줄어들었다! 그래서 이러한 가정이 전혀 허무맹랑한 가정은 아닐것이라고 생각한다.