'AI' 카테고리의 글 목록

제 7 장 지시를 따르도록 미세 튜닝하기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 현재 2장까지 실습과 정리가 끝난 상태다. 앞으로 할 작업들이다. 7.1 지시 미세 튜닝 소개 7.2 지도 학습 지시 미세 튜닝을 위해 데이터셋 준비하기 7.3 훈련 배치 만들기 7.4 지시 데이터셋을 위한 데이터 로더 만들기 7.5 사전 훈련된 LLM 로드하기 7.6 응답을 추출하여 저장하기 7.8 미세 튜닝된 LLM 평가하기

AI/만들면서 배우는 LLM 2025.11.29

제 6 장 분류를 위해 미세 튜닝하기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 현재 2장까지 실습과 정리가 끝난 상태다. 앞으로 할 작업들이다. 6.1 여러가지 미세 튜닝 방법 6.2 데이터셋 준비 6.3 데이터 로더 만들기 6.4 사전 훈련된 가중치로 모델 초기화하기 6.5 분류 헤드 추가하기 6.6 분류 손실과 정확도 계산하기 6.7 지도 학습 데이터로 모델 미세 튜닝하기 6.8 LLM을 스팸 분류기로 사용하기

AI/만들면서 배우는 LLM 2025.11.29

제 5 장 레이블이 없는 데이터를 활용한 사전 훈련

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 현재 2장까지 실습과 정리가 끝난 상태다. 앞으로 할 작업들이다. 5.1 텍스트 생성 모델 평가하기 5.2 LLM 훈련하기 5.3 무작위성을 제어하기 위한 디코딩 전략 5.4 파이토치로 모델 로드하고 저장하기 5.5 오픈 AI에서 사전 훈련된 가중치 로드하기

AI/만들면서 배우는 LLM 2025.11.29

제 4 장 밑바닥부터 GPT 모델 구현하기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 현재 2장까지 실습과 정리가 끝난 상태다. 앞으로 할 작업들이다. 4.1 LLM 구조 구현하기 4.2 층 정규화로 활성화 정규화하기 4.3 GELU 활성화 함수를 사용하는 피드 포워드 네트워크 구현하기 4.4 숏컷 연결 추가하기 4.5 어텐션과 선형 층을 트랜스포머 블록에 연결하기 4.6 GPT 모델 만들기 4.7 텍스트 생성하기

AI/만들면서 배우는 LLM 2025.11.29

제 3 장 어텐션 매커니즘 구현하기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 현재 2장까지 실습과 정리가 끝난 상태다. 앞으로 할 작업들이다. 3.1 긴 시퀀스 모델링의 문제점 3.2 어텐션 매커니즘으로 의존성 포착하기 3.3 셀프 어텐션으로 입력의 서로 다른 부분에 주의 기울이기 3.4 훈련 가능한 가중치를 가진 셀프 어텐션 구현하기 3.5. 코잘 어텐션으로 미래의 단어를 감추기 3.6 싱글 헤드 어텐션을 멀치 해드 어텐션으로 확장하기

AI/만들면서 배우는 LLM 2025.11.29

제 2 장 텍스트 데이터 다루기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 2.1 단어 임베딩 이해하기- 훈련용 텍스트 준비- 위에서 1.7 절의 대규머 언어 모델 만들기의 1단계- 1) 데이터 준비 & 샘플링- 단어 임베딩 : 단어를 실수 벡터로 바꾸는 개념- 임베딩의 목적은 신경망이 처리할 수 있는 포맷으로 변환하는 것- 문장, 단락 또는 문서 전체를 위한 임베딩도 있다.- 문장, 단락 임베딩은 RAG에서 널리 사용됨 (핸즈온 LLM) 하지만 이 내용은 이 책에선 다루지 않음- 이 책의 목표는 한 번에 하나의 단어씩 텍스트를 생성하는 GPT와 유사한 LLM을 훈련하는 것이..

AI/만들면서 배우는 LLM 2025.11.15

밑바닥부터 만들면서 배우는 LLM

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 제 1 장제 2 장

AI/만들면서 배우는 LLM 2025.10.11

제 1 장 대규모 언어 모델 이해하기

이 내용은 밑바닥부터 만들면서 배우는 LLM 책(길벗, 2025)의 내용을 읽어가며 요약한 내용을 적은 글이다.모르는 단어들도 나오는데 일단은 한번 쭉 읽어가며 그대로 진행한다.인프런에 관련 강좌도 있다. 1.1 LLM이란 무엇인가요?- LLM은 사람의 텍스트를 이해하고, 생성하고, 응답하도록 고안된 신경망이다.- 신경망에는 다양한 구조가 있고 여기서는 그중에서도 트랜스포머 구조에만 초점을 맞춤- 트랜스포머는 기계 번역을 위해 고안된 신경망 구조임.- 머신러닝 모델은 크게 지도학습과 비지도 학습 방법으로 훈련하는데 이 책에서는 비지도 학습은 설명하지 않는다. 1.2 LLM 애플리케이션- 텍스트 분류, 요약 : 예) 검색 엔진의 결과를 개선- 사용자의 지시를 따라 응답 : 예) 챗GPT- 언어 번역이나 ..

AI/만들면서 배우는 LLM 2025.10.11

혼공학습단 10기(혼자 공부하는 머신러닝)를 끝내면서....

약 한달간의 기간은 해볼만하다고 생각하고 무작정 달려들었지만... 나름 예전에 독학으로 반정도는 봤던 책이라 다시 시작하면 쉽게 쉽게 갈 수 있을줄 알았건만 다시 들여다본 책은 하얀건 종이요 까만건 글씨인건 변하지 않았더군요. 역시 책이란건 한번 봤으면 끝까지 다시 봐야 기억에 그나마 남는거 같았습니다. 중간에 그만둔 책을 다시 보니 아주 미세한 기억만이 남아있었습니다. 또한 직장인들의 주중 저녁시간은 비어있는듯 비어있지 않은 시간임을 다시 한번 깨닫게 되었네요. 항상 출근할때는 퇴근후에 한 챕터씩 진도를 나가야지를 다짐하지만 피곤함앞에서는 장사가 없었습니다. 그래도 가끔씩 주는 선물은 큰 힘이 되었고 ㅎㅎㅎ 선물을 받았으니 어떻게든 마무리를 해야겠다는 강력한 의지로 주중에 못한 작업들은 주말에 몰아서 ..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.23

챕터 07 - 3

이전 7챕터들 에서는 인공 신경망에 대해 배우고 텐서플로의 케라스 API를 사용하는 법과 1개 이상의 층을 추가하여 심층 신경망을 구성하고 다양한 고급 옵티마이저들을 알아보았다. 이렇게 딥러닝에서는 모델의 구조를 직접 만들어간다는 느낌이 훨씬 강하다. 이번 절에서는 케라스 API를 사용해 모델을 훈련하는데 필요한 도구들을 알아보겠다. 손실곡선 fit() 메소드로 모델을 훈련하면 무엇인가를 반환하는데 이때 반환값이 History 클래스 객체를 반환한다. History 객체에는 훈련과정에서 계산한 지표, 즉 손실과 정확도 값이 저장되어 있다. 이 값을 사용하면 그래프를 그릴 수 있다. 챕터를 진행하기 전에 이전의 패션 데이터를 로드하고 훈련 세트와 검증 세트로 나누자. 그리고 모델을 만드는 간단한 함수를 정..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.19

챕터 07 - 2

앞 챕터에서 사용한 인공 신경망은 사실 층이 1개짜리인데도 불구하고 로지스틱 회귀보다 높은 성능을 보여줬다. 이 인공 신경망은 층을 더 추가해서 성능을 높일수 있는데 그걸 알아보자. 역시 패션 데이터를 불러와서 테스트세트와 검증세트를 분리하는것까지 수행하자. 이제 전 챕터에서 만든 모델에서 중간에 밀집층이 추가한다. 이렇게 입력층과 출력층 사이에 있는 모든 층을 은닉층이라고 부른다. 그런데 은닉층에는 활성화 함수가 포함되는데 왜냐하면 은닉층에서 선형적인 산술 계산만 수행한다면 수행 역할이 없는 셈이라서 선형 계산을 적당하게 비선형적으로 비틀어 주어야 하는데 이 역활을 활성화 함수가 수행한다. 많이 사용하는 활성화 함수 중 하나는 시그모이드이다. 그럼 시그모이드 활성화 함수를 사용한 은닉층과 소프트맥스 함..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.19

챕터 07 - 1

이제 생선에서 벗어나 패션 아이템이라는 새로운 데이터 셋을 사용하게 됐다. 아이템 분류 문제를 기존 로지스틱 회귀로도 다시 해보고 이번 챕터에서 새로 배울 인공 신경망을 통해서도 분류를 한다음 성능을 비교해보자. 우선 데이터를 로딩하는데 패션 MNIST 데이터는 워낙 유명하기 때문에 딥러닝 라이브러리에서 이 데이터를 바로 로딩해서 쓸수 있다. 라이브러리는 텐서플로라는 아주 유명한 라이브러리를 사용했고 로딩한 데이터를 출력해보고 샘플의 타깃값 10개와 레이블당 샘플수까지 확인해봤다. 이 훈련 샘플은 60,000개나 되기 때문에 전체 데이터를 한꺼번에 사용하여 모델을 훈련하는 것보다 샘플을 하나씩 꺼내서 훈련하는 방법이 더 효율적으로 보인다. 확률적 경사 하강법이다. 훈련전에 2차원인 샘플들을 1차원으로 펼..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.11

챕터 06 - 3

주성분 분석 차원과 차원 축소 지금까지 데이터가 가진 속성을 특성이라고 불렀는데 과일 사진의 경우 10,000개의 픽셀이 있기 때문에 10,000개의 특성이 있는 셈이다. 머신러닝에서는 이런 특성을 차원이라도 부른다. 나중에 보겠지만 이런 차원을 줄일 수 있다면 저장 공간을 크게 절약할 수 있을 것이고 차원 축소된 데이터를 지도 학습 알고리즘이나 다른 비지도 학습 알고리즘에 재사용하여 성능을 높이거나 훈련 속도를 빠르게 만들 수도 있다. 즉 이번 챕터에서 배울 내용을 미리 요약하면 그림의 10,000 개의 픽셀을 해당 이미지의 특성을 가진 몇십개의 픽셀 정보로 줄여서 그걸 가지고 다른 분야에 사용할수 있다는 것이다. 아무튼 작업을 하는 대표적인 알고리즘이 주성분 분석 (PCA)이 있다.줄여서 PCA라고도..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.05

챕터 06 - 2

전 챕터에서는 사실 정답을 알고 있었기 때문에 정답(평균)에 가까운 사진을 찾기를 수행했었다. 하지만 진짜 비지도 학습에서는 어떤 사진이 들어있는지 알지 못한다. 이런 경우 어떻게 평균값을 구할 수 있을까? 책에선 k-평균 군집 알고리즘이 평균값을 자동으로 찾아준다고 하던데... 이 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 또는 센트로이드라고 불린다. 작동 알고리즘은 거리 기반 알고리즘과 비슷한데 일단 정해진 숫자만큼 그룹을 짓고 거기의 평균값을 구한다음 비교하고 좌표를 조금 이동해서 다시 정해진 숫자만큼 그룹을 짓고 평균값을 구하고 비교하고... 이런식으로 그룹내에서 변동이 없으면 종료하는 방식이다. 그럼 다시 과일사진 300개를 다시 준비하고 이 사진들을 한 평면에 쫘악 펼쳐서 배치하..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.08.04

챕터 06 - 1

지금까지 데이터와 정답이 있는 지도학습을 진행했다. 이제 정답없이 자동으로 학습을 하는 비지도학습을 익혀보자. 학습 예제로 무작위의 과일 사진모음을 자동으로 분류하기를 원하는 예제인데 타깃이 없는 상태이다. 이제 숫자가 아닌 이미지를 다루는데 어떤식으로 처리해야 할까? 정답은 픽셀이다. 픽셀 하나하나를 숫자로 치환해서 다루는게 핵심이다. 또한 본문에도 나오지만 높은 의미를 갖는 값을 흰색으로 하고 낮은 의미를 가진 값(예를 들면 바탕색)은 검은색으로 바꿔서 처리를 하면 계산이 쉽게된다. 머신러닝의 기본 작업 순서를 다시 되새겨서 크게 보면 1. 데이터 준비 및 파악 2. 적절한 전처리 3. 적절한 알고리즘으로 학습 4. 학습 평가 5. 하이퍼파라미터 조정을 통해 다시 학습 반복 6. 실제 활용 1. 데이..

AI/혼자 공부하는 머신러닝+딥러닝 책 2023.07.31

코드헌터

AI 26

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28