유사도,similarity

AKA 유사성, 닮음, 닮음 정도, 비슷함, similarity measure, 유사성 측도


아무래도 같은 영단어 NdEn:similarity WtEn:similarity
이렇게 나누는 게 좋을 듯? (2023-11-02)

단어/표현
dissimilarity 비유사도
resemblance 라는 표현도 보이는데 (단어 뜻은 비슷함, 뉘앙스차이?)
분류,classification(/그룹화grouping/군집화/클러스터링clustering)의 중요한 주제. 서로 (유사한/닮은) 것을 묶어야/뭉쳐야 하므로.
그래서 비지도학습,unsupervised_learning에 쓰임.

벡터,vector얼마나 유사한지에 대한 값이 내적,inner_product and 스칼라곱,scalar_product,dot_product? chk.

종류


//tmp; chk; from wpko
{
//첫문단
내적,inner_product이 정의되는 내적공간,inner_product_space에서 정의되며, 두 벡터,vector 사이 각,angle코사인,cosine값을 사용.
* 완전히 같으면 1,
* 직교(rel. 직교성,orthogonality)하면 0,
* 완전히 반대이면, −1.
벡터의 크기(magnitude?)와 무관.
특히 결과가 $[0,1]$ 로 떨어질 때 사용 //...왜 그런지 설명이 부족
}

대표적인 각도 기반 유사도. (각,angle)
두 벡터의 방향,direction같을수록비슷할수록 비슷하다고 간주해 코사인 값을 써서 두 벡터의 유사한 정도를 파악하는 방법.

영벡터가 아닌 두 벡터 $\vec{a}=(a_1,a_2,\cdots,a_n),\,\vec{b}=(b_1,b_2,\cdots,b_n)$ 가 이루는 각의 크기가 $\theta\;(0\le\theta\le\pi)$ 일 경우
$\cos\theta=\frac{\vec{a}\cdot\vec{b}}{|\vec{a}| |\vec{b}|}=\frac{a_1b_1+a_2b_2+\cdots+a_nb_n}{\sqrt{a_1^2+a_2^2+\cdots+a_n^2}\sqrt{b_1^2+b_2^2+\cdots+b_n^2}}$

AI에서 특성벡터( 특징벡터 feature_vector)는 일반적으로 음수값을 성분으로 설정하지 않으므로 코사인 유사도는 최대 1, 최소 0 값.
0이면 완전히 다르다.
0에 가까울수록 연관성이 떨어진다.
1에 가까울수록 비슷하다.
1이면 완전히 같다.

// tmp from 이상엽 https://youtu.be/DmOdYauHdK0?t=489

그리고 이어서 유클리디안 유사도
근데 Google:euclidean similarity보면 영어로는 Euclidean similarity라기 보단 그냥 Euclidean distance라고 하는 듯. 그리고 Euclidean distance vs cosine similarity 둘이 비교되는 글 자주 보임

대표적인 거리 기반 유사도. (거리,distance)
두 벡터의 유클리드 거리가 작을수록 비슷하다고 간주해 두 벡터의 유사한 정도를 파악하는 방법.

두 벡터 $\vec{a}=(a_1,a_2,\cdots,a_n),\,\vec{b}=(b_1,b_2,\cdots,b_n)$ 에 대하여
$d(\vec{a},\vec{b})=\left| \vec{b}-\vec{a} \right| = \sqrt{(b_1-a_1)^2+(b_2-a_2)^2+\cdots+(b_n-a_n)^2}$

// tmp from 이상엽 https://youtu.be/DmOdYauHdK0?t=627

$\cos\theta=\frac{\langle x,y \rangle}{||x||\cdot||y||}$
$=\frac{\vec{x}\cdot\vec{y}}{|\vec{x}||\vec{y}|}$
$=\frac{(x_1y_1+x_2y_2+\cdots+x_ny_n)}{\sqrt{\sum x_i^2}\sqrt{\sum y_i^2}}$
from 다다, 처음배우는인공지능, p110, RECHK

벡터 $\vec{c_1},\vec{c_2}$ 가 있을 때, 그 코사인 유사도는
$\cos\theta=\left(\frac{\vec{c_1}}{||\vec{c_1}||}\right)\cdot\left(\frac{\vec{c_2}}{||\vec{c_2}||}\right)$
말하고자 하는 바는 '방향,direction이 얼마나 비슷한가' 이며,
완전히 같다면 1,
완전히 반대라면 -1이다.
from https://wikidocs.net/74690 CHK (여기선 이렇게 단위벡터,unit_vector내적,inner_product를 씀)

자연어 처리 입문 책에서의 언급
https://wikidocs.net/24603

mklink
내적,inner_product
노름,norm
군집/클러스터/,cluster
상관,correlation
코사인거리,cosine_distance = 코사인유사도,cosine_similarity − 1





상관계수 (숫자 쌍의 유사도)
피어슨 상관계수
스피어만의 순위 상관계수
켄달의 순위 상관계수
Goto 상관계수,correlation_coefficient
상관함수 (함수의 유사도)
교차상관함수 - chk; maybe related: 상호상관,cross-correlation
자기상관함수 - chk; maybe related: 자기상관,autocorrelation
Later 상관함수,correlation_function
상관,correlation 함수,function

자카드 계수 Jaccard coefficient = 자카드 유사도 Jaccard similarity = 자카드 지수 Jaccard index = Jaccard similarity coefficient
Zeta:Sørensen–Dice_계수
WpEn:Sørensen–Dice_coefficient
(아래는 거리,distance 항목 참조)
레벤슈타인 거리 - 레벤슈타인_거리,Levenshtein_distance
해밍 거리 - 해밍_거리,Hamming_distance
유클리드 거리 - Euclid_distance or Euclidean_distance ... 가장 흔한? 기본적? 거리이므로 see 거리,distance
마할라노비스 거리 - Mahalanobis_distance - writing
자카드 거리 - distance 대신 index 표현도 많이 쓰임 ... Jaccard_index ///저위쪽에 언급. Jaccard 검색.
Bhattacharyya_distance - writing
Hellinger_distance - writing

NLP에서 문서,document유사도 ... document_similarity ?
document similarity ? Ggl:document similarity
문서 유사도 측정 · ratsgo's blog
https://ratsgo.github.io/from frequency to semantics/2017/04/20/docsim/
Up: 문서,document 유사도,similarity

관련


거리,distance와 밀접.
거리,distance 가깝다 멀다
유사도,similarity 높다(닮았다) 낮다(안 닮았다)
로 나타낼 수 있음

상관,correlation
Q: 상당히 유사한 개념 같은데 뉘앙스 차이는 어떻게 되는지?

반대개념은
거리,distance
차이,difference
dissimilarity?
{
비유사도 ?
안닮음도 ? 안닮은정도 ?

http://www.ktword.co.kr/test/view/view.php?m_temp1=4900 - dissimilarity 에 대해 '차이점/부동성(不同性)' 및 거리 언급


기타 - 다른 곳에서의 '유사', 'simil-', 닮음, 등등

기하학,geometry이나 선형대수에서 행렬,matrix닮음,similarity
닮음행렬,similar_matrix { Compare: similarity_matrix ... Twins: https://mathworld.wolfram.com/SimilarMatrices.html }
matrix_similarity
{
matrix similarity
WpKo:행렬의_닮음
WpEn:Matrix_similarity

rel. Jordan_normal_form or Jordan_canonical_form (JCF) - WpEn:Jordan_normal_form WpKo:조르당_표준형
} // matrix similarity ... Google:matrix.similarity

프랙탈,fractal에서... 자기유사성 self similarity ... pagename 자기유사성,self-similarity?


Srch:similarity_matrix
Compare: 닮음행렬,similar_matrix ... 현재 바로위쪽에.
}


같은 영단어 similarity의 한국어 단어 선택에 대해. #wikiadmin #pagename
뜻은 multiple objects 사이 관계,relation에 대한 것인데 사전을 보면
WtEn:similarity
NdEn:similarity
일단 번역은 둘 중 하나이면 OK: { 유사, 닮음 }, kms도 그렇고(KmsE:similarity) (가끔 '상사'라는 표현 보임) 다만,
  • 유사도,similarity: 그러한 정도, magnitude, 측도,measure. // 닮은정도 닮음정도 닮음도?
  • 유사성,similarity: 그러한 속성, 특성, 성질. // 닮음성 ?
  • ....그 외에 유사점/닮은 점/공유하는 성질(shared properties)라는 뜻도 있고 등등.. (위 wten의 경우 2. (philosophy)에서의 뜻)
전자는 수치(number, value, quantity, ...)로 환산(similar: valuation?)된 결과,result수,number이며 산술,arithmetic연산 및 비교,comparison등을 할 수 있으며
후자는 더 추상적인 닮음이라는 성질 자체에 대한 것. (성질,property, abstract concept, 관계,relation)
ex. cosine_similarity는 코사인 유사성보다는 코사인 유사도가 적합한 표현.
아무튼 유사성,similarity페이지 or 분류를 만드는 편이 좋겠으며, 기하학,geometry에서 말하는 similarity도 위 '유사성, 유사도'와 깊은 유사성은 있지만 구체적으로는 전혀 다른 서술이 필요한 개념이라 (크기,size는 다를 수 있고 shape는 완벽히 같은) (즉 기하의 similarity는 Compare: congruence) (Ggl:도형 닮음 합동 얘기.) - 보니 이미 옛날에 geometry page line #5에 닮음,similarity 합동,congruence이 이미 링크되어 있었다.

아무튼 결론은 유사도,similarity에서 유사성,similarity 닮음,similarity 두 페이지를 분리예정.


Twins:
WpEn:Similarity_measure similarity measure or similarity function
WpEn:Category:Similarity_measures
Zeta:유사도