#noindex [[합성함수,composite_function]]의 미분에서 나오는 방법? 합성함수의 유일한 미분법인가? <> = .... = [[Leibniz_notation]]으로 표기하면 마치 [[약분,cancellation]] 비슷한? '''Chain rule'''은 Newton/Lagrange 방식의 표기보다 Leibniz 표기를 쓸 때 압도적으로 편하다 (마치 약분할 것 처럼 식을 쓸 수 있는) ---- 정리: 함수 $g$ 가 $x$ 에서 미분가능하고, $f$ 가 $g(x)$ 에서 미분가능하면 $\frac{d}{dx}\left[f(g(x))\right]=f'(g(x))g'(x)$ $y=f(u),\,u=g(x)$ 로 두고 라이프니츠 기호로 표현하면, 위 식은 $\frac{d}{dx}\left[f(u)\right]=TBW$ $\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$ ---- $f\textrm{ and }g$ 가 미분가능하고 $F(x)=f(g(x))$ 이면, $F$ 는 미분가능하며 $F'(x)=f'(g(x))\cdot g'(x)$ i.e. $(f \circ g)'(x)=f'(g(x))\cdot g'(x)$ ---- $F=f\circ g$ 가 x에서 미분가능할 때 $F'(x)=f'(g(x))\cdot g'(x)$ [[RR:라이프니츠_표기법,Leibniz_notation]]으로 쓰면, $y=f(u)$ and $u=g(x)$ 일 때 $\frac{dy}{dx}=\frac{dy}{du}\cdot\frac{du}{dx}$ 이다. 이것을 함수 이름으로 다시 써보면, $\frac{dy}{dx}=\frac{df(u)}{du}\cdot\frac{dg(x)}{dx}$ i.e. $\frac{dy}{dx}=\frac{d}{du}f(u)\cdot\frac{d}{dx}g(x)$ ---- 함수 $g$ 가 $x$ 에서 미분가능하고, $f$ 가 $g(x)$ 에서 미분가능하면, 합성함수 $F=f\circ g$ 즉 $F(x)=f(g(x))$ 는 $x$ 에서 미분가능하며, $F'$ 은 다음 [[곱,product]]으로 주어진다. $F'(x)=f'(g(x))\cdot g'(x)$ 라이프니츠 표기,,Leibniz notation,,를 쓰면, 미분가능한 두 함수 $y=f(u),\,u=g(x)$ 에 대해 $\frac{dy}{dx}=\frac{dy}{du}\frac{du}{dx}$ (Stewart) = Multivariable chain rule = 이렇게 [[편미분,partial_derivative]]이 나온다는데 다시 잘 정리할 것. TODO $z=f(x,y),\;x=g(t),\,y=h(t)$ 일 때 $z=f(g(t),h(t))$ $\frac{dz}{dt}=\frac{\partial f}{\partial x}\frac{dx}{dt}+\frac{\partial f}{\partial y}\frac{dy}{dt}$ ---- If f is a real-valued fn of 3 variables u, v, and w, written in the form $z=f(u,v,w),$ and the variables u, v, w are each functions of x, $u=g(x),v=h(x),w=k(x),$ then by substituting g(x), h(x), and k(x) for u, v, and w, we obtain z as a function of x: $z=f(g(x),h(x),k(x)).$ The chain rule in this case reads: $\frac{dz}{dx}=\frac{\partial z}{\partial u}\frac{du}{dx}+\frac{\partial z}{\partial v}\frac{dv}{dx}+\frac{\partial z}{\partial w}\frac{dw}{dx}.$ from Vector Calculus 6e p124 ---- [[전미분,total_differential]]의 chain rule [[WpEn:Total_derivative#The_chain_rule_for_total_derivatives]] ---- https://mathinsight.org/chain_rule_multivariable_introduction https://mathinsight.org/chain_rule_multivariable_examples == tmp from khan multivar. calc. == $\vec{v}(t)=\langle x(t),y(t) \rangle$ $\frac{d\vec{v}}{dt}=\left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$ $\frac{d}{dx}f(x(t),y(t))$ $=\frac{\partial f}{\partial x}\cdot\frac{dx}{dt}+\frac{\partial f}{\partial y}\cdot\frac{dy}{dt}$ $=\left\langle \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right\rangle \cdot \left\langle \frac{dx}{dt} , \frac{dy}{dt} \right\rangle$ $=\nabla f\cdot\vec{v}{}'(t)$ $=\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$ 이것이 $\frac{d}{dx}f(g(x))=f'(g(x))g'(x)$ 와 비슷? 이상 [[https://youtu.be/qZlBjnC3iro src]] 이유 TBW ---- 아무튼 위에서 살펴본 $\frac{d}{dt}(f(\vec{v}(t)) \longrightarrow \nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$ 와 [[방향도함수,directional_derivative]]의 관계를 알아본다. 여기부터 langle rangle 대신 그냥 괄호 사용.... 100차원짜리 $f(x_1,x_2,\cdots,x_{100})$ $\vec{v}(t)=(x_1(t),\cdots,x_{100}(t))$ $\frac{d}{dt}\vec{v}(t)=\left( \frac{dx_1}{dt}, \cdots, \frac{dx_{100}}{dt} \right)$ $\nabla_{\vec{w}} f(\vec{P}) = \nabla f(\vec{P})\cdot\vec{w}$ 그래서, 위에 있는 $\nabla f(\vec{v}(t))\cdot\vec{v}{}'(t)$ 이것은 $\nabla_{\vec{v}{}'(t)}f(\vec{v}(t))$ 라고??? CHK 이상 [[https://youtu.be/m2mW2FQJgEE src]] = 편미분 = 편미분의 연쇄법칙은 [[편미분,partial_derivative]] 참조. = 확률론 = 확률론에 [[조건부확률,conditional_probability]] 연쇄법칙이란 이름이 붙은 것이 있음. checkout: [[조건부확률,conditional_probability#s-3]] = 정보이론 = 엔트로피의 연쇄법칙이 있음. 아마도 [[조건부엔트로피,conditional_entropy]]의? (related pages: [[조건부,conditional]] [[엔트로피,entropy]]) [[조건부상호정보,conditional_mutual_information]]의 연쇄법칙이 있음. check out: https://www.inc.cuhk.edu.hk/InformationTheory/files/PDF/2_4.pdf [[엔트로피,entropy]], [[상호정보,mutual_information]], [[조건부엔트로피,conditional_entropy]] [[조건부상호정보,conditional_mutual_information]]의 chain rule이 차례로 언급 { Chain rule for entropy: $H(X_1,\cdots,X_n)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1})$ ex. n=2: $H(1,2)=H(1)+H(2|1)$ ex. n=3: $H(1,2,3)=H(1)+H(2|1)+H(3|1,2)$ Chain rule for conditional entropy: $H(X_1,\cdots,X_n|Y)=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$ Chain rule for mutual information: $I(X_1,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1})$ ex. n=2: $I(1,2;Y)=I(1;Y)+I(2;Y|1)$ ex. n=3: $I(1,2,3;Y)=I(1;Y)+I(2;Y|1)+I(3;Y|1,2)$ Chain rule for conditional mutual information: $I(X_1,\cdots,X_n;Y|Z)=\sum_{i=1}^{n}I(X_i;Y|X_1,\cdots,X_{i-1},Z)$ ---- Chain rule for conditional entropy 증명 $H(X_1,X_2,\cdots,X_n|Y)$ $=H(X_1,X_2,\cdots,X_n,Y)-H(Y)$ $=H((X_1,Y),X_2,\cdots,X_n)-H(Y)$ $=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|(X_1,Y),X_2,\cdots,X_{i-1})-H(Y)$ $=H(X_1,Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)-H(Y)$ $=H(X_1|Y)+\sum_{i=2}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$ $=\sum_{i=1}^{n}H(X_i|X_1,\cdots,X_{i-1},Y)$ 다른 증명 $H(X_1,X_2,\cdots,X_n|Y)$ $=\sum_y p(y) H(X_1,X_2,\cdots,X_n|Y=y)$ $=\sum_y p(y) \sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y=y)$ $=\sum_{i=1}^{n} \sum_y p(y) H(X_i|X_1,\cdots,X_{i-1},Y=y)$ $=\sum_{i=1}^{n} H(X_i|X_1,\cdots,X_{i-1},Y)$ } == 엔트로피의 연쇄법칙 chain rules for entropy == tmp from [[https://www.di.univr.it/documenti/OccorrenzaIns/matdid/matdid648405.pdf this slide]] page 1 { 확률변수 더미(collection)의 [[엔트로피,entropy]]는, [[조건부엔트로피,conditional_entropy]]의 합과 같다. The entropy of a collection of random variables is the sum of conditional entropies. Thm: Let $X_1,X_2,\cdots,X_n$ be random variables having the mass probability(아마도 [[결합확률질량함수,joint_probability_mass_function,joint_PMF]]) $p(x_1,x_2,\cdots,x_n).$ Then $H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^{n} H(X_i|X_{i-1},\cdots,X_1)$ The proof is obtained by repeating the application of the two-variable expansion rule for entropies. } == 상호정보의 연쇄법칙 chain rule for mutual information == [[상호정보,mutual_information]] 조건부상호정보???? 아무튼 그 식은 [[조건부상호정보,conditional_mutual_information]]에도 있듯 $I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_{i-1},X_{i-2},\cdots,X_1)$ = NN의 backpropagation algorithm에서 나오는 chain rule = 일단은 http://sanghyukchun.github.io/74/ 글의 "Backpropagation Algorithm" 문단 참조. weight update의 phase 2에서 chain rule을 사용. MKLINK: [[뉴런,neuron]] [[신경망,neural_network]] [[손실함수,loss_function]] weight parameter update ''(weight_parameter - [[가중값,weight]] [[parameter]], weight_update, ...이것들중에 pagename TBD? 아님 페이지 따로 없어도 무방할 듯.)'' [[전파,propagation]] - 순전파? forward_propagaion and [[역전파,backpropagation]] [[기울기하강,gradient_descent]] [[심층학습,deep_learning]] 그림의 수식을 보면 rel. - [[편미분,partial_derivative]], [[전미분,total_derivative]] ... curr see [[WpEn:Total_derivative#The_chain_rule_for_total_derivatives]] ---- See also: [[치환적분,integration_by_substitution]]에서 언급됨. [[미분,differentiation]]의 '''연쇄법칙'''은 [[적분,integration]]의 [[치환적분,integration_by_substitution]]과 밀접. mklink Twins: https://en.citizendium.org/wiki/Chain_rule [[https://terms.naver.com/entry.naver?docId=3338285&cid=47324&categoryId=47324 수학백과: 연쇄법칙]] [[WpKo:연쇄_법칙]] [[WpEn:Chain_rule]] Libre:연쇄법칙 AKA '''체인 룰''' Up: [[미분,differentiation]] and/or [[미분,derivative]]