일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ml 웹서빙
- qgis
- DASH
- 3유형
- GPU
- dl
- 공간분석
- 실기
- KNN
- K최근접이웃
- 공간시각화
- 딥러닝
- 예제소스
- webserving
- 빅데이터분석기사
- ㅂ
- fastapi
- Kaggle
- CUDA
- 1유형
- 성능
- QGIS설치
- 캐글
- Ai
- pytorch
- 인공지능
- 머신러닝
- 2유형
- streamlit
- gradio
- Today
- Total
목록분류 전체보기 (88)
에코프로.AI
실제 세계에서 빅데이터 분석, 데이터 과학 및 머신 러닝(ML) 애플리케이션을 배포하기 위해 분석 튜닝 및 모델 학습은 작업의 약 25%에 불과합니다. 약 50%의 노력은 분석 및 ML을 위해 데이터를 준비하는 데 사용됩니다. 나머지 25%의 노력은 통찰력과 모델 추론을 대규모로 쉽게 사용할 수 있도록 만드는 데 사용됩니다. 빅데이터 파이프라인은 이 모든 것을 하나로 모읍니다. 장기적인 성공은 데이터 파이프라인을 올바르게 만드는 데 달려 있습니다. 데이터 파이프라인의 바람직한 엔지니어링 특성은 다음과 같습니다.접근성: 가설 평가 및 모델 실험을 위해 데이터 과학자가 데이터에 쉽게 접근할 수 있어야 하며, 이는 바람직하게는 쿼리 언어를 통해 가능합니다.확장성: 수집된 데이터 양이 늘어나도 그에 맞춰 확장..

데이터 파이프라인(Data Pipeline) 이란?데이터 파이프라인은 데이터를 수집, 가공, 저장, 분석 가능한 형태로 전달하는 과정을 자동화하는 기술적 접근방식입니다. 이 과정은 비즈니스 의사 결정, 머신러닝 모델의 학습, 데이터 제품의 개발 등 다양한 용도로 사용되는 데이터의 질과 가용성을 보장합니다. 따라서, 데이터 엔지니어링과 데이터 파이프라인 구축은 기업이 데이터를 자산으로 전환하여 경쟁력을 높이는 데 필수적인 과정입니다. 데이터 파이프라인 구축의 핵심 원칙데이터 파이프라인을 구축할 때 몇 가지 핵심 원칙을 고려해야 합니다. 왜냐하면 이러한 원칙은 데이터 파이프라인의 효율성과 신뢰도를 높이는 데 도움이 되기 때문입니다. 첫째, 데이터 파이프라인은 가능한 한 자동화되어야 합니다. 자동화는 반복적..

클라우드 컴퓨팅 플랫폼의 빅3클라우드 컴퓨팅은 조직이 디지털 운영을 처리하는 방식에 혁명을 일으켰습니다. Amazon Web Services(AWS), Microsoft Azure, Google Cloud Platform(GCP)은 전 세계 클라우드 시장을 지배하는 3대 클라우드 서비스 제공업체 입니다.대부분의 기업은 온사이트 서버에서 클라우드, 심지어 멀티 클라우드 환경 으로 컴퓨팅을 이전하여 다음과 같은 기능의 이점을 누릴 수 있습니다.CapEx 감소인프라 유지 관리 감소가용성 및 안정성 향상주문형 리소스의 확장성운영 비용 절감원격 액세스 및 원활한 협업다양한 장치 지원속도와 성능을 위한 최적화된 인프라강화된 보안최신 기술에 대한 접근 빅3 클라우드 컴퓨팅 제공업체는 모두 신뢰할 수 있고 기능이 풍부..

2013년부터 인기가 폭발적으로 치솟은 데이터 사이언스 분야는 점차 발전하며 구체적인 역할과 직업으로 세분화되고 있다. 하지만 그 과정에서 직업마다 일관성 없는 역할이 주어졌고, 어쩔 수 없는 혼란을 가져왔다. 예를 들어, 다양한 직업이 똑같은 역할을 수행하는 경우도 있고, 한 직업이 다양한 역할을 수행하는 경우도 있다:1. 데이터 사이언티스트필요 역량데이터 분석에 대한 기본 통계학과 수학적 지식 머신러닝과 딥러닝 모델 개별 경험 데이터 시각화 및 인사이트 발굴 능력추천 기술SQL, 파이썬, R, 머신러닝 알고리즘 업무상세데이터 사이언티스트는 다양한 데이터를 수집, 전처리, 시각화하고 이를 통해 비즈니스에 가치를 창출하는 역할을 수행합니다. 다시 말해, 이들은 비즈니스에서 표면적으로 드러나지 않는 문제를..

A full training 이제 트레이너 클래스를 사용하지 않고 지난 섹션에서 했던 것과 동일한 결과를 얻는 방법을 살펴보겠습니다. 다시 한 번, 섹션 2에서 데이터 처리를 완료했다고 가정합니다. 다음은 필요한 모든 사항을 간략하게 요약한 것입니다.from datasets import load_datasetfrom transformers import AutoTokenizer, DataCollatorWithPaddingraw_datasets = load_dataset("glue", "mrpc")checkpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)def tokenize_function(example): ..

CUDA를 설치하지 않으셨으면 아래의 링크를 통해서 선행 설치해야 진행가능합니다.[CUDA] 1. 소개 및 설치 for windows(Feat. GTX 1650) Check GPUGPU 가용성 확인GPU에 액세스할 수 있는지 확인하는 가장 쉬운 방법은 torch.cuda.is_available()을 호출하는 것입니다. True를 반환하면 시스템에 torch버전에 맞는 CUDA가 올바르게 설치되어 있다는 뜻입니다.import torchtorch.cuda.is_available() 현재 선택한 디바이스의 인덱스를 가져옵니다. torch.cuda.current_device() 사용 가능한 GPU 수를 확인합니다.torch.cuda.device_count() 디바이스 이름을 가져옵니다.torch.cuda.get..

Fine-tuning a model with the Trainer API (Trainer API 로 모델 미세 조정하기) 🤗 트랜스포머는 데이터 세트에 대해 미리 학습된 모델을 미세 조정할 수 있도록 Trainer(트레이너) 클래스를 제공합니다. 마지막 섹션에서 모든 데이터 전처리 작업을 완료했다면 이제 트레이너를 정의하는 몇 단계만 남았습니다. 가장 어려운 부분은 CPU에서 매우 느리게 실행되므로 Trainer.train()을 실행할 환경을 준비하는 것입니다. GPU가 설정되어 있지 않은 경우 Google Colab에서 무료 GPU 또는 TPU에 액세스할 수 있습니다. 아래 코드 예제는 이전 섹션의 예제를 이미 실행한 것으로 가정합니다. 다음은 필요한 사항을 간략하게 요약한 것입니다:from data..
Processing the data (데이터 처리)이전 장의 예를 계속하면 PyTorch에서 하나의 배치에 대한 시퀀스 분류기를 훈련하는 방법은 다음과 같습니다.import torchfrom transformers import AdamW, AutoTokenizer, AutoModelForSequenceClassification# Same as beforecheckpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)model = AutoModelForSequenceClassification.from_pretrained(checkpoint)sequences = [ "I've been waiting for a Hu..

용어정의CUDA, CUDA Toolkit, cuDNN은 NVIDIA에서 개발한 GPU 컴퓨팅 관련 기술들로, 각각 다음과 같은 특징을 가지고 있습니다 CUDA (Compute Unified Device Architecture)CUDA는 NVIDIA가 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다정의: GPU에서 수행하는 병렬 처리 알고리즘을 C, C++ 등의 프로그래밍 언어로 작성할 수 있게 해주는 기술입니다목적: GPU의 강력한 병렬 처리 능력을 일반적인 컴퓨팅 작업에 활용하기 위해 개발되었습니다특징: GPU의 가상 명령 집합과 병렬 연산 요소들에 직접 접근할 수 있는 소프트웨어 계층을 제공합니다 대량의 병렬 연산을 동시에 처리하는 것이 주요 목표입니다CUDA To..
사전학습, 전이학습, RAG, 미세조정은 모두 인공지능 모델, 특히 대규모 언어 모델(LLM)을 개발하고 최적화하는 데 사용되는 중요한 기술들입니다. 각각의 개념과 차이점을 설명해드리겠습니다.사전학습 (Pre-training)사전학습은 대규모의 일반적인 데이터셋을 사용해 모델을 학습시키는 프로세스입니다이 과정에서 모델은 언어의 기본 구조, 문법, 뉘앙스, 다양한 정보 등을 학습합니다. 사전학습은 방대한 양의 데이터와 컴퓨팅 리소스를 필요로 하며, 모델에게 광범위한 지식 기반을 제공합니다 전이학습 (Transfer Learning)전이학습은 한 태스크에 대해 훈련된 모델을 사용해 유사한 작업을 수행하는 모델의 기초로 활용하는 기법입니다이 방법을 통해 작은 데이터셋으로도 높은 성능을 얻을 수 있으며, 특정..