자료집합, 데이터셋, ... (자료|데이터)(셋|세트|집합) data set, dataset
1. (training/test/validation) set/dataset ¶
CHK
training set: training에 사용됨
validation set: hyperparameter를 튜닝하는 도중 모델의 정확도,accuracy를 test하는데 사용됨
test set: 모델이 확립된 후에만 사용됨
training set: training에 사용됨
validation set: hyperparameter를 튜닝하는 도중 모델의 정확도,accuracy를 test하는데 사용됨
test set: 모델이 확립된 후에만 사용됨
학습집합 training_set 을 선행 학습용으로 제공하고 검증집합 test_set 은 처음에는 숨겼다가 정확도,accuracy를 검증할 때 사용하는 방법도 있다. (마스터 알고리즘 책에서, 과적합,overfitting을 피하는 방법들 중 언급)
Sub:
whole dataset
training_dataset - 훈련,training training_set ... https://developers.google.com/machine-learning/glossary?hl=ko#training_set
validation_dataset - 검증,validation? validation_set ... https://developers.google.com/machine-learning/glossary?hl=ko#validation_set
test_dataset - test_set ... https://developers.google.com/machine-learning/glossary?hl=ko#test_set
... Training,_validation,_and_test_data_sets
... training test validation dataset
whole dataset
training_dataset - 훈련,training training_set ... https://developers.google.com/machine-learning/glossary?hl=ko#training_set
validation_dataset - 검증,validation? validation_set ... https://developers.google.com/machine-learning/glossary?hl=ko#validation_set
test_dataset - test_set ... https://developers.google.com/machine-learning/glossary?hl=ko#test_set
... Training,_validation,_and_test_data_sets
... training test validation dataset
// tmp from https://ganghee-lee.tistory.com/38
{
validation set : 학습 완료된 모델을 검증하기 위한 dataset.
test set : 학습+검증이 완료된 모델의 성능평가를 위한 dataset.
{
validation set : 학습 완료된 모델을 검증하기 위한 dataset.
test set : 학습+검증이 완료된 모델의 성능평가를 위한 dataset.
공통점
validation set, test set의 공통점은 이걸 가지고 model을 update하지 않는다(=학습시키지 않는다)는 점.
validation set, test set의 공통점은 이걸 가지고 model을 update하지 않는다(=학습시키지 않는다)는 점.
차이점
validation set: 학습을 시키진 않지만 학습에 관여는 한다
test set : 학습에 전혀 관여하지 않고 오직 최종성능평가에만 쓰인다
}
validation set: 학습을 시키진 않지만 학습에 관여는 한다
test set : 학습에 전혀 관여하지 않고 오직 최종성능평가에만 쓰인다
}
그리고 각각 해당하는
training_loss { https://developers.google.com/machine-learning/glossary?hl=ko#training-loss }
validation_loss {
test_loss { https://developers.google.com/machine-learning/glossary?hl=ko#test-loss }
training_loss { https://developers.google.com/machine-learning/glossary?hl=ko#training-loss }
validation_loss {
test_loss { https://developers.google.com/machine-learning/glossary?hl=ko#test-loss }
2. 여러 datasets ¶
공개 데이터셋 저장소 .... https://subprofessor.tistory.com/120
deep learning datasets (via Kwak)
- MNIST - 1990s - handwritten characters, 60000 images
- CIFAR-10 - 2009 - 60000 images
- ImageNet - 2009 - 1.5 million images
- ...
3. regression, prediction 을 위한 dataset의 예... 표현/표기 (ㄱㅈㅌ) ¶
from Lecture 1 ML Basics
여기선
linear_regression -
non-linear_regression -
를 위한 dataset을 다음과 같이 정의.
linear_regression -
non-linear_regression -
를 위한 dataset을 다음과 같이 정의.
where
e.g., electricity use based on [month, temperature, holiday]
𝒙1 = [7, 31, 0] and 𝑦1 = 4000,
𝒙3 = [9, 22, 1] and 𝑦3 = 6500
𝒙1 = [7, 31, 0] and 𝑦1 = 4000,
𝒙3 = [9, 22, 1] and 𝑦3 = 6500
Our goal is to learn a model 𝑔 with parameters 𝒘 that can predict the outputs given inputs:
여기서
는 physical measurements,
는 ground truth.
는 physical measurements,
는 ground truth.
전처리과정으로, ML 알고리즘에서 쓸 수 있게 하기 위해, raw data를 feature(vector)로 처리/변환해야 함. // 특징,feature
4. TODO ¶
https://developers.google.com/machine-learning/glossary?hl=ko#data-set-or-dataset
(ML에선 정의가 짧음: "A collection of examples." 참고로 저기 example의 정의 가보면 "One row of a dataset.")
Up: 자료,data 집합,set