목록전체 글 (51)
걍블로그
인공지능에서 영향력이 큰 Sutton의 BitterLesson의 내용을 개인적으로 이해하기에는 "사람이 가진 지식으로 만들 모델링(수식)이 초기 성능은 나쁘지 않지만 발전하기는 힘들다(아마도 사람이 계산 하거나 어떤 대상을 이해하는 부분에 한계가 존재할 것이다). 이에 반해서 Deep learning 처럼 기계가 모델링을 수행하는 경우에는 사람의 직관이 포함되지 않는 방식이기 때문에 초기에 성능이 좋지 않지만, 충분한 탐색을 할 수 있다면 성능의 개선을 기대할 수 있다. (기계가 기본적인 계산을 기반으로한 모델링을 수행하는데, 이는 Deep learning에서 쉽게 볼 수 있듯이 뒤의 Layer와 합쳐져서 충분히 복잡한 모델링이 구성이 가능하다. 그리고 다른 장점으로 아마도 기본적인 계산으로 진행하는게 ..
- 지인 결혼식 참석 - 취업 준비를 슬슬 시작하기 위해 여러 행정 업무 진행 - 전직장 동료들을 만나서 같이 즐거운 시간을 보냄! - >전직장 동료가 알려준 영어에 대한 이미지를 생각하는 방법을 다시 리마인드 하면서 응용을 해보고 있는데, 맞는지 모르겠다. -> 잡는(?) 이미지와 관련된 동사들이 가지는 이미지 Take -> get 보다는 조금 적극적으로 가서 어떤것을 취하는 느낌 Get -> 좀 더 일반적인 범위의 취하는 느낌 Have -> 취하다는 의미보다는 취하고 난 뒤에 그것을 소유하고 있는 상태 Catch -> 시간이나 공과 같이 빠르게 지나는 대상을 잡아 채는 느낌 Hold -> 뭔가 물리적으로 무엇인가를 쥐고 있는 느낌 -> 응용(틀렸을 수도 있다.... 그냥 개인적으로 생각해본 의미일 뿐..

비밀 프로젝트 관련해서 LLM(LLAMA)를 fine-tuning 하던중 문제(?)가 발생하였다. 기존 설계에 대한 가설 : 기존에는 실험적으로 LLAMA는 fine-tuning해도 기존에 가지고 있던 상식을 어느 정도 유지했기 때문에, 우리가 원하는 방식의 질문에 대한 대답을 잘 해줄 수 있을것이다. 문제 : 원래 LLAMA를 fine-tuning해도 기존에 가지고 있던 상식(?)을 유지한채 대답을 잘 해주는 결과가 나타났는데, 이번에 그렇지 못했다!(O,X 문제를 물었는데 그냥 다 O로 보내버렸다....!) 문제 원인 추정 : 문제의 복잡도가 다소 높아서, fine-tuning을 할 때 적절한 근거에 대한 상식적 추론을 잘 못해서 그냥 외워버린게 아닐가 생각함! 대응 : grokking을 시도해 보려..

요즘 여러 생각으로 싱숭생숭한 마음이 많이 들어서 생각을 정리하기 위해서 떠난, 선자령 + 달랏(베트남) 여행!! 선자령 여행 점심으로 강원도에서 산타버거를 시켰는데, 사장님이 유쾌한 산타 느낌이 났다. 그리고 선자령을 등산! 풍차가 경치랑 잘 어울러져서 이뻤다 그리고 내려와서 숙소에서 밤바다를 보면서 멍 때리는 시간 가지기! 달랏 여행! 기본적으로 달랏이 지대가 높다보니 베트남이지만 덥지 않아서 좋았다! 그리고 건물들도 이뻐서 경치가 참 좋았다! 경치가 좋고 폭포같은 자연환경이 잘 구성이 되어 있어서 그런지 포토존이 생각보다 많았다!(물론 포토존처럼 만들기 위해서 어느정도 인공적으로 만들어진 부분도 있었지만, 그래도 기본적으로 자연환경이 잘 되어 있다는 느낌이 있기에 가능한 부분인듯 하다) 그냥 호수에..
- 설교 말씀 들으면서, 하나님이 우리를 얼마나 사랑 하시는지 알게 되어서 감사한 시간이었다. 그 사랑을 알기 때문에 힘들어도 긍정적일 수 있어질것 같다. - Diffusion 기반의 Text 생성 실험에 대해서 가설을 설정 했는데, 어느 정도 동작하는것 같아서 기쁘다! - LLAMA 모델도 대략적인 가설을 세웠고, 이제 검증을 하기 위해 준비 중이다! 이것도 좋을 결과가 나오면 좋을 것 같다 - 데이터 전처리 관련해서, Hand-Craft VS Deep Learnig 방법에 대해서 고민을 해보고 있다. - 키오스크 페이지를 대략이지만..... 만들어 봤다!
- 1차 실험에서 관찰한 결과 : 문법 교정의 성능은 다소 떨어짐. 하지만, 이유를 추론하는 부분은 괜찮은 성능아 보임!? - 피드백 : 납득이 좀 어려운 결과 였다. 왜냐하면 수정한 결과를 보는것보다 이유를 설명하는 Task가 더 어려운 부분일텐데.....(일단 생성해야 하는 문장의 길이부터가 차이가 꽤 크다!) 일단 그래도 다행이라고 느낀것은 대략적인 결과물들을 보았을 때, 모델이 기존의 사전 지식을 잃지 않았다는 것이다(사실 6천개의 데이터로 LLM을 학습한다는 것은 말도 안되는 수치이다. 만약 6천개 데이터를 기억하기 위해 기존의 학습 정보가 사라지게 된다면 모델의 성능은 최악으로 떨어질 것이다. 하지만, 여기서 이유를 추론하는 부분을 보면 알수 있듯이 모델이 글자에 대한 이해와 분석을 잘 하는 ..

- 배치 적용 결과 : 그래프가 꽤 마음에 든다! 나름 잘 나온듯함! -> 그렇다면 이전에 세웠던 가설인 일정 부분 loss가 커지는 부분에 의해서 학습이 이상하게 되었다는 가설이 가능성이 있고, 이를 해결하기 위해서 배치를 사용할 수 있다는 것도 타당한 접근이 될 수 있다고 본다! - 복원이 됐는지 검증 : 원래 값으로 복원이 잘 되는가?(validation dataset 기반으로 test 진행함), 전체적으로 나쁘지 않지만 - loss : 0.3인 부분과 해당 결과가 유사한지? 파이토치의 CROSSENTROPYLOSS의 수식은 아래와 같이 나타난다. 쉽게 -log(x) 그래프를 기반으로 생각해보자, 거의 해당 label에 대해서 x =1이 되어야 할 때, 평균적으로 x = 0.5 정도로 추론을 한다...
- Diffusion 기반의 Text 생성 실험 1차 수정에 대한 결과를 보고 피드백을 수행했음! 일단 초기 가설이 학습률일 것이라고 생각해서 적용해 봤는데, 어느 정도 일부 동작은 했다고 보여짐. 하지만, 진동 부분은 이해가 잘 안가긴 함! 배치의 문제가 있을거 같기도 한데(loss는 상황에 따라서 충분히 클수 있는데 배치 사이즈가 1이라서 커버가 안된다는 것이 나름 생각한 가설이기 때문에 내일 재도전 해야겠다!) - KIOSK 프로젝트 배포를 할려고 하는데, firebase의 DB연동이 너무 잘 안됨. 열심히 삽질을 해보고 있는데, 해결이 잘 안됨...ㅠㅜ 물론 각잡고 하면 해결이야 할 수 있겠지만.... 시성비(시간 대비 성과)가 별로 안나오는듯 함. 간략한 토이 프로젝트 정도 수준의 서비스니까 그..