연쇄법칙,chain_rule

합성함수,composite_function의 미분에서 나오는 방법? 합성함수의 유일한 미분법인가?



1. ....

Leibniz_notation으로 표기하면 마치 약분,cancellation 비슷한?

Chain rule은 Newton/Lagrange 방식의 표기보다 Leibniz 표기를 쓸 때 압도적으로 편하다 (마치 약분할 것 처럼 식을 쓸 수 있는)

정리: 함수 $g$$x$ 에서 미분가능하고, $f$$g(x)$ 에서 미분가능하면
$\frac{d}{dx}\left[f(g(x))\right]=f'(g(x))g'(x)$
$y=f(u),\,u=g(x)$ 로 두고 라이프니츠 기호로 표현하면, 위 식은
$\frac{d}{dx}\left[f(u)\right]=TBW$

$\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$

$f\textrm{ and }g$ 가 미분가능하고 $F(x)=f(g(x))$ 이면,
$F$ 는 미분가능하며
$F'(x)=f'(g(x))\cdot g'(x)$
i.e.
$(f \circ g)'(x)=f'(g(x))\cdot g'(x)$

$F=f\circ g$ 가 x에서 미분가능할 때
$F'(x)=f'(g(x))\cdot g'(x)$
RR:라이프니츠_표기법,Leibniz_notation으로 쓰면,
$y=f(u)$ and $u=g(x)$
일 때
$\frac{dy}{dx}=\frac{dy}{du}\cdot\frac{du}{dx}$
이다. 이것을 함수 이름으로 다시 써보면,
$\frac{dy}{dx}=\frac{df(u)}{du}\cdot\frac{dg(x)}{dx}$
i.e.
$\frac{dy}{dx}=\frac{d}{du}f(u)\cdot\frac{d}{dx}g(x)$


함수 $g$$x$ 에서 미분가능하고, $f$$g(x)$ 에서 미분가능하면, 합성함수 $F=f\circ g$$F(x)=f(g(x))$$x$ 에서 미분가능하며, $F'$ 은 다음 곱,product으로 주어진다.
$F'(x)=f'(g(x))\cdot g'(x)$
라이프니츠 표기Leibniz notation를 쓰면, 미분가능한 두 함수 $y=f(u),\,u=g(x)$ 에 대해
$\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$

(Stewart)

2. Multivariable chain rule

이렇게 편미분,partial_derivative이 나온다는데 다시 잘 정리할 것. TODO
$z=f(x,y),\;x=g(t),\,y=h(t)$ 일 때
$z=f(g(t),h(t))$
$\frac{dz}{dt}=\frac{\partial f}{\partial x}\frac{dx}{dt}+\frac{\partial f}{\partial y}\frac{dy}{dt}$


If f is a real-valued fn of 3 variables u, v, and w, written in the form
$z=f(u,v,w),$
and the variables u, v, w are each functions of x,
$u=g(x),v=h(x),w=k(x),$
then by substituting g(x), h(x), and k(x) for u, v, and w, we obtain z as a function of x:
$z=f(g(x),h(x),k(x)).$
The chain rule in this case reads:
$\frac{dz}{dx}=\frac{\partial z}{\partial u}\frac{du}{dx}+\frac{\partial z}{\partial v}\frac{dv}{dx}+\frac{\partial z}{\partial w}\frac{dw}{dx}.$

from Vector Calculus 6e p124






2.1. tmp from khan multivar. calc.

$\vec{v}(t)=\langle x(t),y(t) \rangle$
$\frac{d\vec{v}}{dt}=\left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$

$\frac{d}{dx}f(x(t),y(t))$
$=\frac{\partial f}{\partial x}\cdot\frac{dx}{dt}+\frac{\partial f}{\partial y}\cdot\frac{dy}{dt}$
$=\left\langle \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right\rangle \cdot \left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$
$=\nabla f\cdot\vec{v}{}'(t)$
$=\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$

이것이
$\frac{d}{dx}f(g(x))=f'(g(x))g'(x)$
와 비슷?

이상 [https]src
이유 TBW

아무튼 위에서 살펴본
$\frac{d}{dt}(f(\vec{v}(t)) \longrightarrow \nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$

방향도함수,directional_derivative의 관계를 알아본다.
여기부터 langle rangle 대신 그냥 괄호 사용....

100차원짜리
$f(x_1,x_2,\cdots,x_{100})$
$\vec{v}(t)=(x_1(t),\cdots,x_{100}(t))$
$\frac{d}{dt}\vec{v}(t)=\left( \frac{dx_1}{dt}, \cdots, \frac{dx_{100}}{dt} \right)$

$\nabla_{\vec{w}} f(\vec{P}) = \nabla f(\vec{P})\cdot\vec{w}$

그래서, 위에 있는
$\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$
이것은
$\nabla_{\vec{v}{}'(t)}f(\vec{v}(t))$
라고??? CHK

이상 [https]src

3. 편미분

편미분의 연쇄법칙은 편미분,partial_derivative 참조.

4. 확률론

확률론에 조건부확률,conditional_probability 연쇄법칙이란 이름이 붙은 것이 있음.


5. 정보이론

엔트로피의 연쇄법칙이 있음. 아마도 조건부엔트로피,conditional_entropy의? (related pages: 조건부,conditional 엔트로피,entropy)


check out: https://www.inc.cuhk.edu.hk/InformationTheory/files/PDF/2_4.pdf
엔트로피,entropy,
상호정보,mutual_information,
조건부엔트로피,conditional_entropy
조건부상호정보,conditional_mutual_information의 chain rule이 차례로 언급
{
Chain rule for entropy:
$H(X_1,\cdots,X_n)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1})$
ex. n=2:
$H(1,2)=H(1)+H(2|1)$
ex. n=3:
$H(1,2,3)=H(1)+H(2|1)+H(3|1,2)$

Chain rule for conditional entropy:
$H(X_1,\cdots,X_n|Y)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$

Chain rule for mutual information:
$I(X_1,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1})$
ex. n=2:
$I(1,2;Y)=I(1;Y)+I(2;Y|1)$
ex. n=3:
$I(1,2,3;Y)=I(1;Y)+I(2;Y|1)+I(3;Y|1,2)$

Chain rule for conditional mutual information:
$I(X_1,\cdots,X_n;Y|Z)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1},Z)$


Chain rule for conditional entropy 증명
$H(X_1,X_2,\cdots,X_n|Y)$
$=H(X_1,X_2,\cdots,X_n,Y)-H(Y)$
$=H((X_1,Y),X_2,\cdots,X_n)-H(Y)$
$=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|(X_1,Y),X_2,\cdots,X_{i-1})-H(Y)$
$=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)-H(Y)$
$=H(X_1|Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$
$=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$

다른 증명
$H(X_1,X_2,\cdots,X_n|Y)$
$=\sum_y p(y) H(X_1,X_2,\cdots,X_n|Y=y)$
$=\sum_y p(y) \sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y=y)$
$=\sum_{i=1}^{n} \sum_y p(y) H(X_i|X_1,\cdots,X_{i-1},Y=y)$
$=\sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y)$
}

5.1. 엔트로피의 연쇄법칙 chain rules for entropy

tmp from [https]this slide page 1
{
확률변수 더미(collection)의 엔트로피,entropy는, 조건부엔트로피,conditional_entropy의 합과 같다.
The entropy of a collection of random variables is the sum of conditional
entropies.

Thm: Let $X_1,X_2,\cdots,X_n$ be random variables having the mass probability(아마도 결합확률질량함수,joint_probability_mass_function,joint_PMF) $p(x_1,x_2,\cdots,x_n).$ Then
$H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^{n} H(X_i|X_{i-1},\cdots,X_1)$
The proof is obtained by repeating the application of the two-variable expansion rule for entropies.

}

5.2. 상호정보의 연쇄법칙 chain rule for mutual information


조건부상호정보????

아무튼 그 식은 조건부상호정보,conditional_mutual_information에도 있듯
$I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_{i-1},X_{i-2},\cdots,X_1)$

6. NN의 backpropagation algorithm에서 나오는 chain rule

일단은 http://sanghyukchun.github.io/74/ 글의 "Backpropagation Algorithm" 문단 참조. weight update의 phase 2에서 chain rule을 사용.

MKLINK:
뉴런,neuron
신경망,neural_network
손실함수,loss_function
weight parameter update (weight_parameter - 가중값,weight parameter, weight_update, ...이것들중에 pagename TBD? 아님 페이지 따로 없어도 무방할 듯.)
전파,propagation - 순전파? forward_propagaion and 역전파,backpropagation
기울기하강,gradient_descent
심층학습,deep_learning
그림의 수식을 보면 rel. - 편미분,partial_derivative, 전미분,total_derivative ... curr see WpEn:Total_derivative#The_chain_rule_for_total_derivatives




AKA 체인 룰