#noindex AKA '''유사성, 닮음, 닮음 정도, 비슷함, similarity measure, 유사성 측도''' KmsE:similarity : 닮음. pagename [[닮음,similarity]] 혹은 [[닮음성,similarity]] ? 아무래도 같은 영단어 NdEn:similarity WtEn:similarity 를 * 유사성 - [[유사성]] [[유사성,similarity]] - [[성질,property]] * 유사도 - [[유사도]] [[유사도,similarity]] - [[측도,measure]], [[양,quantity]], [[거리,distance]]에 비유되는. i.e. Ggl:"유사성 측도" * 혹은 한 페이지를 닮음으로 처리 이렇게 나누는 게 좋을 듯? ([[Date(2023-11-02T00:23:51)]]) 단어/표현 dissimilarity 비유사도 resemblance 라는 표현도 보이는데 (단어 뜻은 비슷함, 뉘앙스차이?) QQQ similarity와 차이? Google:resemblance+similarity+차이 Google:resemblance+similarity+difference [[분류,classification]](/그룹화grouping/군집화/클러스터링clustering)의 중요한 주제. 서로 (유사한/닮은) 것을 묶어야/뭉쳐야 하므로. 그래서 [[비지도학습,unsupervised_learning]]에 쓰임. 두 [[벡터,vector]]가 '''얼마나 유사한지'''에 대한 값이 [[내적,inner_product]] and [[스칼라곱,scalar_product,dot_product]]? chk. = 종류 = [[코사인유사도,cosine_similarity]] or [[코사인닮음,cosine_similarity]]? { 두 [[벡터,vector]]의 사이[[각,angle]]을 가지고 [[유사도,similarity]]를 측정하는 방법의 하나. //tmp; chk; from wpko { //첫문단 [[내적,inner_product]]이 정의되는 [[내적공간,inner_product_space]]에서 정의되며, 두 [[벡터,vector]] 사이 [[각,angle]]의 [[코사인,cosine]]값을 사용. * 완전히 같으면 1, * 직교(rel. [[직교성,orthogonality]])하면 0, * 완전히 반대이면, −1. 벡터의 크기(magnitude?)와 무관. 특히 결과가 $[0,1]$ 로 떨어질 때 사용 //...''왜 그런지 설명이 부족'' } ---- 대표적인 각도 기반 유사도. ([[각,angle]]) 두 벡터의 [[방향,direction]]이 --같을수록--비슷할수록 비슷하다고 간주해 코사인 값을 써서 두 벡터의 유사한 정도를 파악하는 방법. 영벡터가 아닌 두 벡터 $\vec{a}=(a_1,a_2,\cdots,a_n),\,\vec{b}=(b_1,b_2,\cdots,b_n)$ 가 이루는 각의 크기가 $\theta\;(0\le\theta\le\pi)$ 일 경우 $\cos\theta=\frac{\vec{a}\cdot\vec{b}}{|\vec{a}| |\vec{b}|}=\frac{a_1b_1+a_2b_2+\cdots+a_nb_n}{\sqrt{a_1^2+a_2^2+\cdots+a_n^2}\sqrt{b_1^2+b_2^2+\cdots+b_n^2}}$ AI에서 특성벡터( 특징벡터 feature_vector)는 일반적으로 음수값을 성분으로 설정하지 않으므로 코사인 유사도는 최대 1, 최소 0 값. 0이면 완전히 다르다. 0에 가까울수록 연관성이 떨어진다. 1에 가까울수록 비슷하다. 1이면 완전히 같다. // tmp from 이상엽 https://youtu.be/DmOdYauHdK0?t=489 그리고 이어서 유클리디안 유사도 ''근데 Google:euclidean+similarity 보면 영어로는 Euclidean similarity라기 보단 그냥 Euclidean distance라고 하는 듯. 그리고 Euclidean distance vs cosine similarity 둘이 비교되는 글 자주 보임'' 대표적인 거리 기반 유사도. ([[거리,distance]]) 두 벡터의 유클리드 거리가 작을수록 비슷하다고 간주해 두 벡터의 유사한 정도를 파악하는 방법. 두 벡터 $\vec{a}=(a_1,a_2,\cdots,a_n),\,\vec{b}=(b_1,b_2,\cdots,b_n)$ 에 대하여 $d(\vec{a},\vec{b})=\left| \vec{b}-\vec{a} \right| = \sqrt{(b_1-a_1)^2+(b_2-a_2)^2+\cdots+(b_n-a_n)^2}$ // tmp from 이상엽 https://youtu.be/DmOdYauHdK0?t=627 ---- $\cos\theta=\frac{\langle x,y \rangle}{||x||\cdot||y||}$ $=\frac{\vec{x}\cdot\vec{y}}{|\vec{x}||\vec{y}|}$ $=\frac{(x_1y_1+x_2y_2+\cdots+x_ny_n)}{\sqrt{\sum x_i^2}\sqrt{\sum y_i^2}}$ from 다다, 처음배우는인공지능, p110, RECHK ---- 벡터 $\vec{c_1},\vec{c_2}$ 가 있을 때, 그 코사인 유사도는 $\cos\theta=\left(\frac{\vec{c_1}}{||\vec{c_1}||}\right)\cdot\left(\frac{\vec{c_2}}{||\vec{c_2}||}\right)$ 말하고자 하는 바는 '[[방향,direction]]이 얼마나 비슷한가' 이며, 완전히 같다면 1, 완전히 반대라면 -1이다. from https://wikidocs.net/74690 CHK (여기선 이렇게 [[단위벡터,unit_vector]]의 [[내적,inner_product]]를 씀) ---- 자연어 처리 입문 책에서의 언급 https://wikidocs.net/24603 ---- mklink [[내적,inner_product]] [[노름,norm]] 군집/클러스터/,cluster [[상관,correlation]] [[코사인거리,cosine_distance]] = '''코사인유사도,cosine_similarity''' − 1 ---- [[Zeta:코사인_유사도]] [[WpKo:코사인_유사도]] [[WpEn:Cosine_similarity]] [[https://terms.naver.com/entry.naver?docId=6653551&cid=69974&categoryId=69974 AI 용어사전: 코사인 유사도]] [[https://terms.naver.com/entry.naver?docId=5668887&cid=60207&categoryId=60207 수학백과: 코사인 유사도]] Up: [[코사인,cosine]] [[유사도,similarity]] } 상관계수 (숫자 쌍의 유사도) 피어슨 상관계수 스피어만의 순위 상관계수 켄달의 순위 상관계수 Goto [[상관계수,correlation_coefficient]] 상관함수 (함수의 유사도) 교차상관함수 - chk; maybe related: [[상호상관,cross-correlation]] 자기상관함수 - chk; maybe related: [[자기상관,autocorrelation]] Later [[상관함수,correlation_function]] [[상관,correlation]] [[함수,function]] 자카드 계수 Jaccard coefficient = 자카드 유사도 Jaccard similarity = 자카드 지수 Jaccard index = Jaccard similarity coefficient [[WpKo:자카드_지수]] [[WpEn:Jaccard_index]] [[Zeta:자카드_유사도]] 관련: 자카드 거리 Jaccard distance ([[,index]] or [[지수,index]] or [[인덱스,index]]) or [[계수,coefficient]] [[Zeta:Sørensen–Dice_계수]] [[WpEn:Sørensen–Dice_coefficient]] [[계수,coefficient]] (아래는 [[거리,distance]] 항목 참조) 레벤슈타인 거리 - [[레벤슈타인_거리,Levenshtein_distance]] 해밍 거리 - [[해밍_거리,Hamming_distance]] 유클리드 거리 - Euclid_distance or Euclidean_distance ... 가장 흔한? 기본적? 거리이므로 see [[거리,distance]] 마할라노비스 거리 - [[Mahalanobis_distance]] - writing 자카드 거리 - distance 대신 index 표현도 많이 쓰임 ... [[Jaccard_index]] ///저위쪽에 언급. Jaccard 검색. [[Bhattacharyya_distance]] - writing [[Hellinger_distance]] - writing NLP에서 [[문서,document]]의 '''유사도''' ... document_similarity ? document similarity ? Ggl:"document similarity" 문서 유사도 측정 · ratsgo's blog https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/20/docsim/ Up: [[문서,document]] [[유사도,similarity]] = 관련 = [[선형성,linearity]] [[거리,distance]]와 밀접. ||[[거리,distance]] ||가깝다 ||멀다 || ||'''유사도,similarity''' ||높다(닮았다) ||낮다(안 닮았다) || 로 나타낼 수 있음 [[상관,correlation]] Q: 상당히 유사한 개념 같은데 뉘앙스 차이는 어떻게 되는지? 반대개념은 [[거리,distance]] 및 [[차이,difference]] 및 [[dissimilarity]]? { 비유사도 ? 안닮음도 ? 안닮은정도 ? http://www.ktword.co.kr/test/view/view.php?m_temp1=4900 - dissimilarity 에 대해 '차이점/부동성(不同性)' 및 거리 언급 ... Ndict:dissimilarity Naver:dissimilarity Google:dissimilarity } = 기타 - 다른 곳에서의 '유사', 'simil-', 닮음, 등등 = [[기하학,geometry]]이나 선형대수에서 [[행렬,matrix]]의 [[닮음,similarity]] [[닮음행렬,similar_matrix]] { Compare: [[similarity_matrix]] ... Twins: https://mathworld.wolfram.com/SimilarMatrices.html } [[matrix_similarity]] { '''matrix similarity''' WpKo:행렬의_닮음 WpEn:Matrix_similarity rel. Jordan_normal_form or Jordan_canonical_form (JCF) - WpEn:Jordan_normal_form WpKo:조르당_표준형 } // matrix similarity ... Google:matrix.similarity [[프랙탈,fractal]]에서... 자기유사성 self similarity ... pagename [[자기유사성,self-similarity]]? [[similarity_matrix]], [[group_similarity]], [[cluster_similarity]] { via http://networksciencebook.com/chapter/9#hierarchical Section 9.3 Srch:similarity_matrix Compare: [[닮음행렬,similar_matrix]] ... 현재 바로위쪽에. } ---- 같은 영단어 '''similarity'''의 한국어 단어 선택에 대해. #wikiadmin #pagename 뜻은 multiple objects 사이 [[관계,relation]]에 대한 것인데 사전을 보면 WtEn:similarity NdEn:similarity 일단 번역은 둘 중 하나이면 OK: { 유사, 닮음 }, kms도 그렇고(KmsE:similarity) (가끔 '상사'라는 표현 보임) 다만, * '''유사도,similarity''': 그러한 정도, magnitude, [[측도,measure]]. // 닮은정도 닮음정도 닮음도? * 유사성,similarity: 그러한 속성, 특성, 성질. // 닮음성 ? * ....그 외에 유사점/닮은 점/공유하는 성질(shared properties)라는 뜻도 있고 등등.. (위 wten의 경우 2. (philosophy)에서의 뜻) 전자는 수치(number, value, quantity, ...)로 환산(similar: valuation?)된 [[결과,result]]인 [[수,number]]이며 [[산술,arithmetic]]연산 및 [[비교,comparison]]등을 할 수 있으며 후자는 더 추상적인 닮음이라는 성질 자체에 대한 것. ([[성질,property]], abstract concept, [[관계,relation]]) ex. cosine_similarity는 코사인 유사성보다는 코사인 유사도가 적합한 표현. 아무튼 [[유사성,similarity]]페이지 or 분류를 만드는 편이 좋겠으며, [[기하학,geometry]]에서 말하는 similarity도 위 '유사성, 유사도'와 깊은 유사성은 있지만 구체적으로는 전혀 다른 서술이 필요한 개념이라 ([[크기,size]]는 다를 수 있고 shape는 완벽히 같은) (즉 기하의 similarity는 Compare: [[congruence]]) (Ggl:"도형 닮음 합동" 얘기.) - 보니 이미 옛날에 geometry page line #5에 [[닮음,similarity]] [[합동,congruence]]이 이미 링크되어 있었다. 아무튼 결론은 '''유사도,similarity'''에서 [[유사성,similarity]] [[닮음,similarity]] 두 페이지를 분리예정. ---- Twins: [[WpEn:Similarity_measure]] '''similarity measure''' or '''similarity function''' [[WpEn:Category:Similarity_measures]] [[Zeta:유사도]] Up: [[측도,measure]]? [[닮음,similarity]]??