'AI Tutorial' 카테고리의 글 목록

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

[HuggingFace] Fine-tuning - 3 (A full training)

A full training 이제 트레이너 클래스를 사용하지 않고 지난 섹션에서 했던 것과 동일한 결과를 얻는 방법을 살펴보겠습니다. 다시 한 번, 섹션 2에서 데이터 처리를 완료했다고 가정합니다. 다음은 필요한 모든 사항을 간략하게 요약한 것입니다.from datasets import load_datasetfrom transformers import AutoTokenizer, DataCollatorWithPaddingraw_datasets = load_dataset("glue", "mrpc")checkpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)def tokenize_function(example): ..

AI Tutorial 2025. 1. 9. 11:33

[CUDA] 2. pytorch에서 GPU를 사용하는 방법

CUDA를 설치하지 않으셨으면 아래의 링크를 통해서 선행 설치해야 진행가능합니다.[CUDA] 1. 소개 및 설치 for windows(Feat. GTX 1650) Check GPUGPU 가용성 확인GPU에 액세스할 수 있는지 확인하는 가장 쉬운 방법은 torch.cuda.is_available()을 호출하는 것입니다. True를 반환하면 시스템에 torch버전에 맞는 CUDA가 올바르게 설치되어 있다는 뜻입니다.import torchtorch.cuda.is_available() 현재 선택한 디바이스의 인덱스를 가져옵니다. torch.cuda.current_device() 사용 가능한 GPU 수를 확인합니다.torch.cuda.device_count() 디바이스 이름을 가져옵니다.torch.cuda.get..

AI Tutorial 2025. 1. 8. 12:23

[HuggingFace] Fine-tuning - 1 (Processing the data)

Processing the data (데이터 처리)이전 장의 예를 계속하면 PyTorch에서 하나의 배치에 대한 시퀀스 분류기를 훈련하는 방법은 다음과 같습니다.import torchfrom transformers import AdamW, AutoTokenizer, AutoModelForSequenceClassification# Same as beforecheckpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)model = AutoModelForSequenceClassification.from_pretrained(checkpoint)sequences = [ "I've been waiting for a Hu..

AI Tutorial 2025. 1. 5. 18:38

[CUDA] 1. 소개 및 설치 for windows(Feat. GTX 1650)

용어정의CUDA, CUDA Toolkit, cuDNN은 NVIDIA에서 개발한 GPU 컴퓨팅 관련 기술들로, 각각 다음과 같은 특징을 가지고 있습니다 CUDA (Compute Unified Device Architecture)CUDA는 NVIDIA가 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다정의: GPU에서 수행하는 병렬 처리 알고리즘을 C, C++ 등의 프로그래밍 언어로 작성할 수 있게 해주는 기술입니다목적: GPU의 강력한 병렬 처리 능력을 일반적인 컴퓨팅 작업에 활용하기 위해 개발되었습니다특징: GPU의 가상 명령 집합과 병렬 연산 요소들에 직접 접근할 수 있는 소프트웨어 계층을 제공합니다 대량의 병렬 연산을 동시에 처리하는 것이 주요 목표입니다CUDA To..

AI Tutorial 2025. 1. 3. 16:41

[DeepLearning] 사전학습, 전이학습, RAG, 미세조정

사전학습, 전이학습, RAG, 미세조정은 모두 인공지능 모델, 특히 대규모 언어 모델(LLM)을 개발하고 최적화하는 데 사용되는 중요한 기술들입니다. 각각의 개념과 차이점을 설명해드리겠습니다.사전학습 (Pre-training)사전학습은 대규모의 일반적인 데이터셋을 사용해 모델을 학습시키는 프로세스입니다이 과정에서 모델은 언어의 기본 구조, 문법, 뉘앙스, 다양한 정보 등을 학습합니다. 사전학습은 방대한 양의 데이터와 컴퓨팅 리소스를 필요로 하며, 모델에게 광범위한 지식 기반을 제공합니다 전이학습 (Transfer Learning)전이학습은 한 태스크에 대해 훈련된 모델을 사용해 유사한 작업을 수행하는 모델의 기초로 활용하는 기법입니다이 방법을 통해 작은 데이터셋으로도 높은 성능을 얻을 수 있으며, 특정..

AI Tutorial 2025. 1. 3. 11:51

[Hugging Face - 7] Putting it all together (모든 것을 종합하기)

지난 몇 섹션에서는 대부분의 작업을 수작업으로 수행하는 방법으로 실습을 진행했습니다. tokenizers 의 작동 방식을 살펴보고 토큰화( tokenization ), input IDs 로의 변환, 패딩( padding ), 잘림( truncation )및 주의 마스크( attention masks )에 대해 살펴봤습니다. 그러나 섹션 2에서 살펴본 것처럼 🤗 트랜스포머 API는 이 모든 것을 높은 수준의 함수를 통해 처리할 수 있으며, 여기서 자세히 살펴볼 것입니다. 문장에서 토큰화 도구를 직접 호출하면 모델을 통과할 준비가 된 입력을 반환받습니다:from transformers import AutoTokenizercheckpoint = "distilbert-base-uncased-finetuned..

AI Tutorial 2025. 1. 3. 10:47

[Hugging Face - 6] Handling multiple sequences(여러 시퀀스 처리하기)

이전 섹션에서는 가장 간단한 사용 사례인 짧은 길이의 단일 시퀀스에 대해 추론을 수행하는 방법을 살펴보았습니다. 하지만 이미 몇 가지 의문이 생겼습니다:여러 개의 시퀀스를 어떻게 처리하나요?길이가 다른 여러 시퀀스를 어떻게 처리하나요 ?어휘 색인이 모델이 잘 작동하는 데 필요한 유일한 입력일까요?시퀀스가 너무 길다는 게 있을까?이러한 질문이 어떤 종류의 문제를 제기하는지 살펴보고, 🤗 Transformers API를 사용하여 이러한 문제를 어떻게 해결할 수 있는지 알아보겠습니다. 모델은 일괄 입력을 예상합니다.이전 연습에서 시퀀스가 숫자 목록으로 변환되는 방식을 살펴보았습니다. 이 숫자 목록을 텐서로 변환하여 모델로 보내 보겠습니다.import torchfrom transformers import ..

AI Tutorial 2025. 1. 1. 14:43

[Hugging Face - 5] Tokenizers

Tokenizers 는 NLP 파이프라인의 핵심 구성 요소 중 하나입니다. Tokenizers 는 텍스트를 모델에서 처리할 수 있는 데이터로 변환하는 한 가지 용도로 사용됩니다. 모델은 숫자만 처리할 수 있으므로 Tokenizers 는 텍스트 입력을 숫자 데이터로 변환해야 합니다. 이 섹션에서는 토큰화 파이프라인에서 정확히 어떤 일이 일어나는지 살펴보겠습니다. NLP 작업에서 일반적으로 처리되는 데이터는 원시 텍스트입니다. 다음은 이러한 텍스트의 예입니다:Jim Henson was a puppeteer 하지만 모델은 숫자만 처리할 수 있으므로 원시 텍스트를 숫자로 변환하는 방법을 찾아야 합니다. 이것이 바로 토큰화 도구가 하는 일이며, 이를 수행하는 방법에는 여러 가지가 있습니다. 목표는 가장 의미 있는..

AI Tutorial 2025. 1. 1. 12:57

[Hugging Face - 4] models

이 섹션에서는 모델을 만들고 사용하는 방법을 자세히 살펴보겠습니다. 체크포인트에서 모델을 인스턴스화할 때 유용한 AutoModel 클래스를 사용하겠습니다. AutoModel 클래스와 그 모든 관계된 클래스는 사실 라이브러리에서 사용할 수 있는 다양한 모델에 대한 간단한 래퍼입니다. 체크포인트에 적합한 모델 아키텍처를 자동으로 추측한 다음 이 아키텍처로 모델을 인스턴스화할 수 있으므로 영리한 래퍼입니다.그러나 사용하려는 모델 유형을 알고 있다면 해당 아키텍처를 정의하는 클래스를 직접 사용할 수 있습니다. BERT 모델에서 이것이 어떻게 작동하는지 살펴보겠습니다.구현환경IDE : vscodeLanguage : Python가상환경 생성라이브러리 설치 (torch 를 사용하는, transformers 라이브러리..

AI Tutorial 2024. 12. 27. 19:41

[Hugging Face - 3] pipeline() 함수 - 내부 처리로직

HuggingFace의 pipeline() 함수를 실행 시, 내부적으로 어떤 절차로 처리가 되는지 확인 합니다. 전체 예제부터 시작하여 다음 코드를 실행했을 때 백그라운드에서 어떤 일이 발생했는지 살펴보겠습니다.from transformers import pipelineclassifier = pipeline("sentiment-analysis")classifier( [ "I've been waiting for a HuggingFace course my whole life.", "I hate this so much!", ])처리결과[{'label': 'POSITIVE', 'score': 0.9598047137260437}, {'label': 'NEGATIVE', 'sco..

AI Tutorial 2024. 12. 27. 18:58

에코프로.AI

목록AI Tutorial (57)

에코프로.AI

티스토리툴바