##'''자료, 데이타, 데이터, datum, data''' ''TBD: [[데이터,data]]에는 뭘 적지?'' MKLINK [[데이터베이스,database]] [[전산학,compsci]] [[대표값,평균값,중앙값,최빈값]] [[정보,information]] 자료와 다른점은? 자료는 정보의 collection? Ggl:"data information knowledge 차이" 가 뭐뭐라고 언급한 글은 많은데 그걸 여기 언급할 필요가 있나? 엄밀한 정의로 보이지는 않는데 [[값,value]]도. [[통계,statistics]] [[표본,sample]] [[변수,variable]] { * reference * dereference [[포인터,pointer]] } [[변량,variate]] { univariate 단변량 multivariate 다변량 bivariate 이변량 } data를 담는 곳: 물리적 저장 매체 - disk, tape, (물리적) [[메모리,memory]] 등 각종 data_storage, 논리적인 단위 - (논리적) [[메모리,memory]]의 ...(stack/heap/data/text/bss, segment, 구조체, ....), [[파일,file]], (rel. [[자료구조,data_structure]]) 전송을 위한 임시의 - bitstream, bytestream, ...([[스트림,stream]]), [[버퍼,buffer]], [[캐시,cache]], ... '''자료'''는 자료형([[타입,type]])의 [[크기,size]]에 따른 공간(storage, memory)을 차지한다. ML([[기계학습,machine_learning]], esp. [[지도학습,supervised_learning]])쪽에서 data_labeling = labeling { 번역? 데이터 레이블링 데이터 라벨링 (?) [[자료,data]]에 [[레이블,label]]{ [[지도학습,supervised_learning]]은 labeled data를, [[비지도학습,unsupervised_learning]]은 unlabeled data(dataset)을 가지고 [[학습,learning]]하는? ... mklink [[태그,tag]] }을 붙이는? dataset 내의 각 data에? chk Up: [[자료,data]] } <> = data- = [[data_type]] => [[타입,type]] [[자료형,data_type]]을 만들까? 그냥 type만들어도 무관할텐데.... tbd { data type Sub: [[arbitrary-precision_integer]] - [[arbitrary-precision_arithmetic]] [[WtEn:data_type]] ... '[[분류,classification]] or [[범주,category]] ...' [[WpKo:자료형]] [[WpEn:Data_type]] ... 가능한 [[값,value]]들로 WpJa:データ型 } [[자료구조,data_structure]] data_transmission, data transmission data_exchange, data exchange data_communication, data communication // [[통신,communication]] data_transfer data transfer ... 이 때의 data는 [[신호,signal]]과 비슷한데 차이가? data_compression WtEn:data_compression Srch:compress data_differencing keywords: diff, patch, delta, text_comparison, compare, cmp, [[WpEn:Data_differencing]] wt x 2023-12 "data differencing" Ggl:"data differencing" [[data_flow]] or [[dataflow]] - writing { [[data_flow_analysis]] (DFA) - writing [[data_flow_diagram]] (DFD) - writing [[자료,data]] [[흐름,flow]] } [[data_stream]] - writing [[자료집합,dataset]] 데이터 전처리 data preprocessing 데이터 시각화 data visualization - [[시각화,visualization]] = -data = [[metadata]] { Srch:metadata mklink [[온톨로지,ontology]] [[WpKo:더블린_코어]] [[WpEn:Dublin_Core]] wpko: "ISO 표준이 있는 metadata 요소 집합" http://www.linfo.org/metadata.html [[WpKo:메타데이터]] [[WpEn:Metadata]] } = 자료의 분류 (통계학 관점) = ##자료의 분류 from http://contents.kocw.or.kr/KOCW/document/2014/sookmyung/yeoinkwon/2.pdf 범주형 자료 categorial data AKA 질적 자료 [[categorical_data]] 명목형 자료 nominal data : 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시하는 것 (ex. 성별, 혈액형) 순서형 자료 ordinal data : 범주의 순서를 상대적으로 비교 가능한 것 (ex. 체중, 선호도, 만족도) MKLINK [[ordinal_variable]] MKLINK [[categorical_variable]] { https://mathworld.wolfram.com/CategoricalVariable.html } [[,category]] https://developers.google.com/machine-learning/glossary?hl=ko#categorical-data 수치형 자료 numerical data AKA 양적 자료 - 자료 자체가 [[수치,numerical_value]]로 표현됨 이산자료 discrete data 셀 수 있음(countable) (ex. 주사위의 눈, 차량 대수, 불량품의 수) [[이산성,discreteness]] 연속자료 continuous data 연속적인 속성을 가지는 자료, 이산화를 통해 자연수로 표시되는 경우가 많음 (ex. 신장, 체중, 온도, 길이, 시간) [[연속성,continuity]] https://developers.google.com/machine-learning/glossary?hl=ko#numerical-data from http://www.kocw.net/home/cview.do?cid=1052562 and https://youtu.be/YaCQrJCgbqg?si=OMn6OAVKu3gw5cco&t=253 ---- i.e. 데이터의 종류 * 질적 데이터 - 혈액형, 선호하는 음식 순위, .. * 양적 데이터 * 이산형 데이터 * 연속형 데이터 ---- 다변량 자료 multivariate data 이변량 자료 bivariate data - 순서쌍 == tmp links ko == https://junklee.tistory.com/10 = data, NN / data science 관점 = 비정형 데이터 vs 정형 데이터 ''이건 [[정규화,normalization]]관련? 아님 sanitizing? 아님 data preprocessing?'' chk rel. [[차원,dimension]] [[길이,length]] [[크기,size]] 관련하여 (scalar < vector < matrix < tensor) data 나타내는 대상 관련하여 text 음성/[[소리,sound]] still [[이미지,image]] - rel. RGB 3채널, [[픽셀,pixel]], [[해상도,resolution]], [[색,color]] video [[시계열,time_series]] ... 문서의 벡터화, 문서의 행렬화 특성벡터 특징벡터? feature_vector ? rel. [[특징,feature]] one-hot, one-cold rel. [[분류,classification]] == data preprocessing == 데이터 전처리 ... Google:데이터.전처리 Naver:데이터.전처리 { [[encoding]] 부호화 or 인코딩 [[one-hot_encoding]] [[label_encoding]] Up: [[처리,processing]] > 데이터 처리 data_processing } = 자료의 특성: 형, 타입, type (CS 관점) = mv to [[타입,type]] [[스칼라,scalar]] [[수열,sequence]] [[벡터,vector]] [[집합,set]] [[스택,stack]] [[큐,queue]] [[우선순위큐,priority_queue]] [[사상,map]] or [[사전,dictionary]] and ordered maps/dictionaries 열거형 enumeration [[배열,array]] [[구조체,struct]] { [[파스칼,Pascal]]에선 record. } [[그래프,graph]] ''기타 [[자료구조,data_structure]]에도 이런것들의 나열 있음'' 이상 sub였고 topics...tbw...... 동적/정적 타입 static/dynamic duck typing variant type type system [[추상자료형,abstract_data_type,ADT]] primitive type 관련: boxing unboxing autoboxing ordered type Pascal은 이런 타입에 successor(계승자), predecessor(선행자) 함수인 {{{succ(x), pred(x)}}}를 제공. 리플렉션 reflection 형 변환, 타입 캐스팅, type casting - conversion? coercion 예를 들어 3+4.5 가 에러로 처리되고 float(3)+4.5 만 가능한 것 보다, int가 float로 묵시적 변환(implicit conversion) 되는게 더 편하다. [[https://docs.python.org/3.9/glossary.html#glossary src]] 그렇다면 프로그래머의 편의를 위해 생긴 PL의 기능? 아님 다른 의미나 의의도 있는지? chk 타입 추론 ......... 관련: [[변수,variable]] { 비교: 불변량/불변성/invariant } [[상수,constant]] 함수형 언어는 [[함수,function]]를 first-class '''data type'''으로 ... 등등. 단어 'data'의 singular/plural 문제 원래는 (단수 datum, 복수 data)가 맞지만, 시대에 따라 언중의 용법이 변하는 중인 듯. 표준 영어에서는 단수형 '''datum''', 복수형 '''data'''이지만 database literature에서는 보통 data를 단수형이자 복수형으로 쓴다. (Elmasri 7e p4) https://everything2.com/title/%2522data%2522+is+plural ---- http://foldoc.org/data