자료,data

TBD: 데이터,data에는 뭘 적지?


정보,information 자료와 다른점은?
자료는 정보의 collection?
Ggl:data information knowledge 차이 가 뭐뭐라고 언급한 글은 많은데 그걸 여기 언급할 필요가 있나? 엄밀한 정의로 보이지는 않는데

값,value도.

통계,statistics
표본,sample
변수,variable
{
  • reference
  • dereference

포인터,pointer
}
변량,variate
{
univariate 단변량
multivariate 다변량
bivariate 이변량
}

data를 담는 곳:
물리적 저장 매체 - disk, tape, (물리적) 메모리,memory 등 각종 data_storage,
논리적인 단위 - (논리적) 메모리,memory의 ...(stack/heap/data/text/bss, segment, 구조체, ....), 파일,file, (rel. 자료구조,data_structure)
전송을 위한 임시의 - bitstream, bytestream, ...(스트림,stream), 버퍼,buffer, 캐시,cache, ...

자료는 자료형(타입,type)의 크기,size에 따른 공간(storage, memory)을 차지한다.

ML(기계학습,machine_learning, esp. 지도학습,supervised_learning)쪽에서
data_labeling = labeling
{
번역?
데이터 레이블링
데이터 라벨링 (?)

자료,data레이블,label{ 지도학습,supervised_learning은 labeled data를, 비지도학습,unsupervised_learning은 unlabeled data(dataset)을 가지고 학습,learning하는? ... mklink 태그,tag }을 붙이는?

dataset 내의 각 data에? chk




1. data-

data_type => 타입,type
자료형,data_type을 만들까? 그냥 type만들어도 무관할텐데.... tbd
{
data type



자료구조,data_structure
data_transmission, data transmission
data_exchange, data exchange
data_communication, data communication // 통신,communication
data_transfer data transfer
... 이 때의 data는 신호,signal과 비슷한데 차이가?

data_compression WtEn:data_compression
data_differencing
keywords: diff, patch, delta, text_comparison, compare, cmp,
WpEn:Data_differencing
wt x 2023-12
"data differencing"
Ggl:data differencing

data_flow or dataflow - writing
{
data_flow_analysis (DFA) - writing
data_flow_diagram (DFD) - writing


data_stream - writing


데이터 전처리 data preprocessing

데이터 시각화 data visualization - 시각화,visualization

3. 자료의 분류 (통계학 관점)

범주형 자료 categorial data AKA 질적 자료 categorical_data
명목형 자료 nominal data
: 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시하는 것 (ex. 성별, 혈액형)
순서형 자료 ordinal data
: 범주의 순서를 상대적으로 비교 가능한 것 (ex. 체중, 선호도, 만족도)
MKLINK ordinal_variable
MKLINK categorical_variable { https://mathworld.wolfram.com/CategoricalVariable.html } ,category
https://developers.google.com/machine-learning/glossary?hl=ko#categorical-data
수치형 자료 numerical data AKA 양적 자료 - 자료 자체가 수치,numerical_value로 표현됨
이산자료 discrete data
셀 수 있음(countable)
(ex. 주사위의 눈, 차량 대수, 불량품의 수)
이산성,discreteness
연속자료 continuous data
연속적인 속성을 가지는 자료, 이산화를 통해 자연수로 표시되는 경우가 많음
(ex. 신장, 체중, 온도, 길이, 시간)
연속성,continuity
https://developers.google.com/machine-learning/glossary?hl=ko#numerical-data
from http://www.kocw.net/home/cview.do?cid=1052562 and https://youtu.be/YaCQrJCgbqg?si=OMn6OAVKu3gw5cco&t=253

i.e.

데이터의 종류
  • 질적 데이터 - 혈액형, 선호하는 음식 순위, ..
  • 양적 데이터
    • 이산형 데이터
    • 연속형 데이터

다변량 자료 multivariate data
이변량 자료 bivariate data - 순서쌍

4. data, NN / data science 관점

비정형 데이터 vs 정형 데이터
이건 정규화,normalization관련? 아님 sanitizing? 아님 data preprocessing? chk

rel. 차원,dimension 길이,length 크기,size
관련하여
(scalar < vector < matrix < tensor) data

나타내는 대상 관련하여
text
음성/소리,sound
still 이미지,image - rel. RGB 3채널, 픽셀,pixel, 해상도,resolution, 색,color
video
시계열,time_series
...

문서의 벡터화, 문서의 행렬화
특성벡터 특징벡터? feature_vector ?
rel.
특징,feature
one-hot, one-cold


4.1. data preprocessing

데이터 전처리
... Google:데이터.전처리 Naver:데이터.전처리
{
encoding 부호화 or 인코딩
Up: 처리,processing > 데이터 처리 data_processing
}

5. 자료의 특성: 형, 타입, type (CS 관점)




이상 sub였고
topics...tbw......

동적/정적 타입
static/dynamic

duck typing

variant type

type system


primitive type
관련: boxing unboxing autoboxing

ordered type
Pascal은 이런 타입에 successor(계승자), predecessor(선행자) 함수인 succ(x), pred(x)를 제공.

리플렉션 reflection

형 변환, 타입 캐스팅, type casting - conversion?

coercion
예를 들어
3+4.5
가 에러로 처리되고
float(3)+4.5
만 가능한 것 보다, int가 float로 묵시적 변환(implicit conversion) 되는게 더 편하다. [https]src
그렇다면 프로그래머의 편의를 위해 생긴 PL의 기능? 아님 다른 의미나 의의도 있는지? chk

타입 추론

.........

관련:
변수,variable { 비교: 불변량/불변성/invariant }
상수,constant
함수형 언어는 함수,function를 first-class data type으로 ... 등등.

단어 'data'의 singular/plural 문제
원래는 (단수 datum, 복수 data)가 맞지만, 시대에 따라 언중의 용법이 변하는 중인 듯.
표준 영어에서는 단수형 datum, 복수형 data이지만 database literature에서는 보통 data를 단수형이자 복수형으로 쓴다. (Elmasri 7e p4)
https://everything2.com/title/%22data%22 is plural