지도학습,supervised_learning

supervised machine learning

각 traning example마다 참값 결과(기반이 되는 참값, ground_truth{사람이 이걸 만드는 과정에서 annotation을 한다.})가 주어져 있고 그걸로 훈련,training을 한 다음,
주어진 입력,input에 대해 출력,output예측,prediction할 수 있도록 학습. (즉 입력과 출력을 가지고 그에 맞는 함수,function를 찾아내는 것과 비슷한)

output형태로 두 가지로 나누면
각각 이산적 / 연속적?

mklink
추정,estimation
레이블,label - writing
ground_truth - writing
semi-supervised_learning (writing)
{
보이는 번역들:
반지도학습
준지도학습
...

... Google:semi-supervised_learning Naver:semi-supervised_learning
}
self-supervised_learning 이란 것도 있네
{
보이는 번역들:
자가지도학습
자기지도학습


비교: 비지도학습,unsupervised_learning
{
이 경우엔 참값(ground_truth.. 정답?)이 뭔지 모른다.
입력에 대해 데이터의 특징/구조를 내포하는 수리적 표현,representation을 생성하는 것에 주안점을 둔다.

Ex. cluster 생성, feature 추출 // 군집생성 clustering, 특징벡터 추출 feature_extraction

MKLINK
autoencoder: 자주 사용되는 방법.

}

비교: 강화학습,reinforcement_learning
{
보상payoff이 극대화되도록 (반복)학습함.
(도중에 시행착오를 반복. 그래서 어떻게 action을 취했을 때 보상이 크더라 하는 것을 기계가 기억하게끔 하는.)
(어떤 action에는 보상을 주고, 어떤 action에는 penalty를 주는 것을 반복. 그래서 좋은 action에 보상을 주어 강화한다고 해서 이런 이름.)

보상 신호에 정보가 많이 담기진 않음. (언제, 왜 보상을 주는지 정확히 알려주지는 않는?)
보상이 지연되는 경우가 많다. (제때 보상을 줄 수 없는 경우가 많은 듯?) (강화학습의 어려운 점.)
}