#noindex
[[합성함수,composite_function]]의 미분에서 나오는 방법? 합성함수의 유일한 미분법인가?

<<TableOfContents>>

= .... =
[[Leibniz_notation]]으로 표기하면 마치 [[약분,cancellation]] 비슷한?

'''Chain rule'''은 Newton/Lagrange 방식의 표기보다 Leibniz 표기를 쓸 때 압도적으로 편하다 (마치 약분할 것 처럼 식을 쓸 수 있는)
----
정리: 함수 $g$ 가 $x$ 에서 미분가능하고, $f$ 가 $g(x)$ 에서 미분가능하면
 $\frac{d}{dx}\left[f(g(x))\right]=f'(g(x))g'(x)$
$y=f(u),\,u=g(x)$ 로 두고 라이프니츠 기호로 표현하면, 위 식은
 $\frac{d}{dx}\left[f(u)\right]=TBW$

 $\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$
----
$f\textrm{ and }g$ 가 미분가능하고 $F(x)=f(g(x))$ 이면,
$F$ 는 미분가능하며
 $F'(x)=f'(g(x))\cdot g'(x)$
i.e.
 $(f \circ g)'(x)=f'(g(x))\cdot g'(x)$
----
$F=f\circ g$ 가 x에서 미분가능할 때
 $F'(x)=f'(g(x))\cdot g'(x)$
[[RR:라이프니츠_표기법,Leibniz_notation]]으로 쓰면, 
 $y=f(u)$ and $u=g(x)$ 
일 때
 $\frac{dy}{dx}=\frac{dy}{du}\cdot\frac{du}{dx}$
이다. 이것을 함수 이름으로 다시 써보면,
 $\frac{dy}{dx}=\frac{df(u)}{du}\cdot\frac{dg(x)}{dx}$
i.e.
 $\frac{dy}{dx}=\frac{d}{du}f(u)\cdot\frac{d}{dx}g(x)$

----
함수 $g$ 가 $x$ 에서 미분가능하고, $f$ 가 $g(x)$ 에서 미분가능하면, 합성함수 $F=f\circ g$ 즉 $F(x)=f(g(x))$ 는 $x$ 에서 미분가능하며, $F'$ 은 다음 [[곱,product]]으로 주어진다.
 $F'(x)=f'(g(x))\cdot g'(x)$
라이프니츠 표기,,Leibniz notation,,를 쓰면, 미분가능한 두 함수 $y=f(u),\,u=g(x)$ 에 대해
 $\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$

(Stewart)

= Multivariable chain rule =
이렇게 [[편미분,partial_derivative]]이 나온다는데 다시 잘 정리할 것. TODO
$z=f(x,y),\;x=g(t),\,y=h(t)$ 일 때
$z=f(g(t),h(t))$
$\frac{dz}{dt}=\frac{\partial f}{\partial x}\frac{dx}{dt}+\frac{\partial f}{\partial y}\frac{dy}{dt}$

----
If f is a real-valued fn of 3 variables u, v, and w, written in the form
 $z=f(u,v,w),$
and the variables u, v, w are each functions of x,
 $u=g(x),v=h(x),w=k(x),$
then by substituting g(x), h(x), and k(x) for u, v, and w, we obtain z as a function of x:
 $z=f(g(x),h(x),k(x)).$
The chain rule in this case reads:
 $\frac{dz}{dx}=\frac{\partial z}{\partial u}\frac{du}{dx}+\frac{\partial z}{\partial v}\frac{dv}{dx}+\frac{\partial z}{\partial w}\frac{dw}{dx}.$

from Vector Calculus 6e p124

----
[[전미분,total_differential]]의 chain rule

[[WpEn:Total_derivative#The_chain_rule_for_total_derivatives]]

----
https://mathinsight.org/chain_rule_multivariable_introduction
https://mathinsight.org/chain_rule_multivariable_examples

== tmp from khan multivar. calc. ==
$\vec{v}(t)=\langle x(t),y(t) \rangle$
$\frac{d\vec{v}}{dt}=\left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$

$\frac{d}{dx}f(x(t),y(t))$
 $=\frac{\partial f}{\partial x}\cdot\frac{dx}{dt}+\frac{\partial f}{\partial y}\cdot\frac{dy}{dt}$
 $=\left\langle \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right\rangle \cdot \left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$
 $=\nabla f\cdot\vec{v}{}'(t)$
 $=\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$

이것이
 $\frac{d}{dx}f(g(x))=f'(g(x))g'(x)$
와 비슷?

이상 [[https://youtu.be/qZlBjnC3iro src]] 
이유 TBW
----
아무튼 위에서 살펴본
 $\frac{d}{dt}(f(\vec{v}(t)) \longrightarrow \nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$

와 [[방향도함수,directional_derivative]]의 관계를 알아본다.
여기부터 langle rangle 대신 그냥 괄호 사용....

100차원짜리
$f(x_1,x_2,\cdots,x_{100})$
$\vec{v}(t)=(x_1(t),\cdots,x_{100}(t))$
$\frac{d}{dt}\vec{v}(t)=\left( \frac{dx_1}{dt}, \cdots, \frac{dx_{100}}{dt} \right)$

$\nabla_{\vec{w}} f(\vec{P}) = \nabla f(\vec{P})\cdot\vec{w}$

그래서, 위에 있는
 $\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$
이것은
 $\nabla_{\vec{v}{}'(t)}f(\vec{v}(t))$
라고??? CHK

이상 [[https://youtu.be/m2mW2FQJgEE src]]

= 편미분 =
편미분의 연쇄법칙은 [[편미분,partial_derivative]] 참조.

= 확률론 =
확률론에 [[조건부확률,conditional_probability]] 연쇄법칙이란 이름이 붙은 것이 있음.

checkout: [[조건부확률,conditional_probability#s-3]]

= 정보이론 =
엔트로피의 연쇄법칙이 있음. 아마도 [[조건부엔트로피,conditional_entropy]]의? (related pages: [[조건부,conditional]] [[엔트로피,entropy]])

[[조건부상호정보,conditional_mutual_information]]의 연쇄법칙이 있음.  

check out: https://www.inc.cuhk.edu.hk/InformationTheory/files/PDF/2_4.pdf
[[엔트로피,entropy]],
[[상호정보,mutual_information]],
[[조건부엔트로피,conditional_entropy]]
[[조건부상호정보,conditional_mutual_information]]의 chain rule이 차례로 언급
{
Chain rule for entropy:
 $H(X_1,\cdots,X_n)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1})$
ex. n=2:
 $H(1,2)=H(1)+H(2|1)$
ex. n=3:
 $H(1,2,3)=H(1)+H(2|1)+H(3|1,2)$

Chain rule for conditional entropy:
 $H(X_1,\cdots,X_n|Y)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$

Chain rule for mutual information:
 $I(X_1,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1})$
ex. n=2:
 $I(1,2;Y)=I(1;Y)+I(2;Y|1)$
ex. n=3:
 $I(1,2,3;Y)=I(1;Y)+I(2;Y|1)+I(3;Y|1,2)$

Chain rule for conditional mutual information:
 $I(X_1,\cdots,X_n;Y|Z)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1},Z)$

----
Chain rule for conditional entropy 증명
 $H(X_1,X_2,\cdots,X_n|Y)$
 $=H(X_1,X_2,\cdots,X_n,Y)-H(Y)$
 $=H((X_1,Y),X_2,\cdots,X_n)-H(Y)$
 $=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|(X_1,Y),X_2,\cdots,X_{i-1})-H(Y)$
 $=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)-H(Y)$
 $=H(X_1|Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$
 $=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$

다른 증명
 $H(X_1,X_2,\cdots,X_n|Y)$
 $=\sum_y p(y) H(X_1,X_2,\cdots,X_n|Y=y)$
 $=\sum_y p(y) \sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y=y)$
 $=\sum_{i=1}^{n} \sum_y p(y) H(X_i|X_1,\cdots,X_{i-1},Y=y)$
 $=\sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y)$
}

== 엔트로피의 연쇄법칙 chain rules for entropy ==
tmp from [[https://www.di.univr.it/documenti/OccorrenzaIns/matdid/matdid648405.pdf this slide]] page 1
{
확률변수 더미(collection)의 [[엔트로피,entropy]]는, [[조건부엔트로피,conditional_entropy]]의 합과 같다.
The entropy of a collection of random variables is the sum of conditional
entropies.

Thm: Let $X_1,X_2,\cdots,X_n$ be random variables having the mass probability(아마도 [[결합확률질량함수,joint_probability_mass_function,joint_PMF]]) $p(x_1,x_2,\cdots,x_n).$ Then
 $H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^{n} H(X_i|X_{i-1},\cdots,X_1)$
The proof is obtained by repeating the application of the two-variable expansion rule for entropies.

}

== 상호정보의 연쇄법칙 chain rule for mutual information ==
[[상호정보,mutual_information]]

조건부상호정보????

아무튼 그 식은 [[조건부상호정보,conditional_mutual_information]]에도 있듯
 $I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_{i-1},X_{i-2},\cdots,X_1)$

= NN의 backpropagation algorithm에서 나오는 chain rule =
일단은 http://sanghyukchun.github.io/74/ 글의 "Backpropagation Algorithm" 문단 참조. weight update의 phase 2에서 chain rule을 사용.

MKLINK:
[[뉴런,neuron]]
[[신경망,neural_network]]
[[손실함수,loss_function]]
weight parameter update ''(weight_parameter - [[가중값,weight]] [[parameter]], weight_update, ...이것들중에 pagename TBD? 아님 페이지 따로 없어도 무방할 듯.)''
[[전파,propagation]] - 순전파? forward_propagaion and [[역전파,backpropagation]]
[[기울기하강,gradient_descent]]
[[심층학습,deep_learning]]
그림의 수식을 보면 rel. - [[편미분,partial_derivative]], [[전미분,total_derivative]] ... curr see [[WpEn:Total_derivative#The_chain_rule_for_total_derivatives]]

----
See also:
 [[치환적분,integration_by_substitution]]에서 언급됨.
  [[미분,differentiation]]의 '''연쇄법칙'''은 [[적분,integration]]의 [[치환적분,integration_by_substitution]]과 밀접. mklink

Twins:
https://en.citizendium.org/wiki/Chain_rule
[[https://terms.naver.com/entry.naver?docId=3338285&cid=47324&categoryId=47324 수학백과: 연쇄법칙]]
[[WpKo:연쇄_법칙]]
[[WpEn:Chain_rule]]

Libre:연쇄법칙

AKA '''체인 룰'''

Up: [[미분,differentiation]] and/or [[미분,derivative]]