## aka data_set '''자료집합, 데이터셋, ''' ... (자료|데이터)(셋|세트|집합) '''data set, dataset''' [[자료,data]] [[집합,set]] <> = (training/test/validation) set/dataset = CHK training set: training에 사용됨 validation set: hyperparameter를 튜닝하는 도중 모델의 [[정확도,accuracy]]를 test하는데 사용됨 test set: 모델이 확립된 후에만 사용됨 학습집합 training_set 을 선행 학습용으로 제공하고 검증집합 test_set 은 처음에는 숨겼다가 [[정확도,accuracy]]를 검증할 때 사용하는 방법도 있다. (마스터 알고리즘 책에서, [[과적합,overfitting]]을 피하는 방법들 중 언급) Sub: whole dataset training_dataset - [[훈련,training]] training_set ... https://developers.google.com/machine-learning/glossary?hl=ko#training_set validation_dataset - [[검증,validation]]? validation_set ... https://developers.google.com/machine-learning/glossary?hl=ko#validation_set test_dataset - test_set ... https://developers.google.com/machine-learning/glossary?hl=ko#test_set ... [[WpEn:Training,_validation,_and_test_data_sets]] ... Google:training+test+validation+dataset // tmp from https://ganghee-lee.tistory.com/38 { validation set : 학습 완료된 모델을 검증하기 위한 dataset. test set : 학습+검증이 완료된 모델의 성능평가를 위한 dataset. 공통점 validation set, test set의 공통점은 이걸 가지고 model을 update하지 않는다(=학습시키지 않는다)는 점. 차이점 validation set: 학습을 시키진 않지만 학습에 관여는 한다 test set : 학습에 전혀 관여하지 않고 오직 최종성능평가에만 쓰인다 } 그리고 각각 해당하는 training_loss { https://developers.google.com/machine-learning/glossary?hl=ko#training-loss } validation_loss { test_loss { https://developers.google.com/machine-learning/glossary?hl=ko#test-loss } = 여러 datasets = 공개 데이터셋 저장소 .... https://subprofessor.tistory.com/120 Sub: [[이미지넷,ImageNet]] MNIST - [[RR:엠니스트,MNIST]] CIFAR deep learning datasets (via Kwak) * MNIST - 1990s - handwritten characters, 60000 images * CIFAR-10 - 2009 - 60000 images * ImageNet - 2009 - 1.5 million images * ... [[WpEn:List_of_datasets_for_machine-learning_research]] = regression, prediction 을 위한 dataset의 예... 표현/표기 (ㄱㅈㅌ) = from Lecture 1 ML Basics 여기선 linear_regression - $g(x)=w_1\cdot x_1 + w_0$ non-linear_regression - $g(x)=w_2\cdot x_2^2 + w_1\cdot x_1 + w_0$ 를 위한 dataset을 다음과 같이 정의. $\mathcal{D}=\left{(\mathbf{x}^1,y^1),(\mathbf{x}^2,y^2),\cdots,(\mathbf{x}^n,y^n)\right}$ where $\mathbf{x}^i = \left[ x_0^i, x_1^i, \cdots, x_{d-1}^i \right]$ $y^i \in \mathbb{R}$ e.g., electricity use based on [month, temperature, holiday] 𝒙^^1^^ = [7, 31, 0] and 𝑦^^1^^ = 4000, 𝒙^^3^^ = [9, 22, 1] and 𝑦^^3^^ = 6500 Our goal is to learn a model 𝑔 with parameters 𝒘 that can predict the outputs given inputs: $g(\mathbf{x})=y$ 여기서 $\vec{x}$ 는 physical measurements, $y$ 는 ground truth. 전처리과정으로, ML 알고리즘에서 쓸 수 있게 하기 위해, raw data를 feature(vector)로 처리/변환해야 함. // [[특징,feature]] = TODO = rel. [[data_point]] (writing) [[data_labeling]] or [[labeling]] 레이블 [[label]] MKLINK [[기계학습,machine_learning]] [[분류,classification]] [[특징추출,feature_extraction]]? ---- Twins: [[WpKo:자료_집합]] [[WpEn:Data_set]] [[WpEn:Training,_validation,_and_test_sets]] https://developers.google.com/machine-learning/glossary?hl=ko#data-set-or-dataset (ML에선 정의가 짧음: "A collection of examples." 참고로 저기 example의 정의 가보면 "One row of a dataset.") Up: [[자료,data]] [[집합,set]]