老師說鏈式法則裡某個 dydx 不能理解為 dy 除以 dx,為什麼?半個馮博士2020-08-24 22:05:24

這事兒剛開始是比較不好理解。

這事兒得從這位大佬開始講起:

萊布尼茨的發明

我們知道導數是這樣定義的:

f^\prime(x) =\lim_{h\to0 }\frac{f(x+h)-f(x)}{h}

但在數學大佬的眼裡,這玩意不

美觀

啊!!在許多時候,數學家眼裡

美=簡潔

。但這式子不簡潔。

從導數的定義上看它不可避免的問題就是要求

,但無奈又不能把極限分別寫進分子和分母裡去!於是Leibniz就想出了這麼個玩意:

\frac{dy}{dx}

,並解釋道:它是“

由 #FormatImgID_4# 的變化而引起的 #FormatImgID_5# 的無窮變化量

”(

dy

)與“

#FormatImgID_7# 的無窮小變化量

(dx)

。那麼用這個記法就可以很好地體現出導數定義裡

的形式了。

上述解釋的關鍵在於:

dy

必須是因

x

改變了

dx

而引起的變化,這個記號才有意義

翻譯幾下就是:

#FormatImgID_12# 不能獨立於 #FormatImgID_13# 而變化!

反例其實很好找:

y^\prime(x)\cdot z^\prime(t)=\lim _{h \rightarrow 0} \frac{y(x+h) -y(x)}{h} \lim _{h \rightarrow 0} \frac{z(t+h) -z(t)}{h} =\frac{dy}{dx}\cdot\frac{dz}{dt}

此時

dy

是和

t

無關的,

dz

是和

x

無關的。

因此如果寫成這樣就肯定錯了:

\xcancel{\color{red}{\frac{dy}{dx }\cdot\frac{dz}{dt} = \frac{dy}{dt}\cdot\frac{dz}{dx} }}

反過來,如果滿足我們上述的條件,那麼實際上它是可以作為“商”來處理的

注意:下面所有的推導都必須保證這個“商”所對應的極限必須存在!

比如我們熟悉的反函式求導:

\frac{dx}{dy} = \frac{1}{\quad\frac{dy}{dx}\quad}

再比如鏈式法則:

\frac{dy}{dx} = \frac{dy}{du}\;\frac{du}{dx}

注意:鏈式法則是可以任意增長的(有限次)。

比如我們令

x=x(t)

\frac{dy}{dt} = \frac{dy}{du}\;\frac{du}{dx}\;\color{red}{\frac{dx}{dt}}

甚至於:

y = f_1\circ f_2\circ \cdots\circ f_n(x)

我們可以這樣處理:

\frac{dy}{dx} = \frac{dy}{\color{Red} {df_n} }\frac{\color{Red}{ df_n} }{dx}

\frac{dy}{dx} = \frac{dy}{\color{Red}{ df_{n-1}} }\;\frac{\color{Red}{ df_{n-1}} }{\color{Blue}{ df_{n}} }\;\frac{\color{Blue}{ df_n} }{dx}

\vdots

\frac{dy}{dx} = \frac{dy}{df_1}\;\frac{df_1}{df_2}\cdots\frac{df_n}{dx}

這個過程中,我們就可以看成不斷地同時“乘”、“除”

df_k

,因為每一步的新增項都

沒有破壞分子是因其自變數改變而產生的無窮小量這一條件

目前深度學習的所謂Back propagation其實就是這個法則(當然需要用到偏導數)。

還有由引數方程確定的函式的求導問題

\left \{  \begin{align*}  x = x(t)\\ y = y(t) \end{align*} \right.

\frac{dy}{dx}={\left ( \frac{dy}{\color{Red}{ dt} } \right )  \Big/ \left ( \frac{dx}{\color{Red}{ dt}} \right )  }

其反函式類似:

\frac{dx}{dy}={\left ( \frac{dx}{\color{Red}{ dt} } \right )  \Big/ \left ( \frac{dy}{\color{Red}{ dt}} \right )  }

這裡與複合函式鏈式法則完全相同,

由於 #FormatImgID_33# 都是由 #FormatImgID_34# 的變化而產生的無窮小量

,因此仍然可以同時“乘”、“除”

dt

鳴謝:

萊布尼茨發明的部分敘述參考了:Is dy/dx not a ratio?

特別感謝@愛拼才會贏 幫我多次指正打叉部分的錯誤!

感謝 @不想打輔助 幫忙找出鏈式法則裡一處筆誤。

關於萊布尼茨記號的歷史實在是太長了,有很多數學家的工作在裡面,包括Bernoulli兄弟在內的大數學家在後來都對此進行了完善。有興趣的同學可以去看《古今數學思想》第二冊82-92頁。

老師說鏈式法則裡某個 dydx 不能理解為 dy 除以 dx,為什麼?空腹蟲2020-08-25 16:54:09

dy/dx的定義就是y對x的導數,如果你非要問dx或dy是什麼的話…dx是實數軸R典則座標的餘切叢(cotangent bundle)的一個截面(section),dy也是一個section,具體用座標寫出來就是(dy/dx)dx,兩個section的除法沒有意義,這些你學了微分流形就懂了

做個補充,一維流形R上的cotangent bundle是line bundle,因為有一個never vanishing section dx,所以又是平凡的,對於任意一個section s,用座標寫出來,s=f·dx,這樣定義s/dx=f是well defined的,特別的如果s是dy,這裡的f就是d/dx(y)也就是y對x的導數,這樣dy就是可以除dx的。注意第一不能推廣到高維;第二底下除的section可以換,但是必須是never vanishing的。

老師說鏈式法則裡某個 dydx 不能理解為 dy 除以 dx,為什麼?芋圓公式2020-08-26 13:49:32

定義 1:

\displaystyle f

稱為函式

f \colon E \to \mathbb{R}

在點

a

處的導數。

定義 2:

定義在

E \subset \mathbb{R}

上的函式

f

在集

E

的極限點

x \in E

處可微的,如果

\boxed{f(x+h) - f(x) = A(x) h + \alpha(x; h)}

這其中

h \mapsto A(x) h

是線性函式(正比例函式),而

\alpha(x;h)

h \to 0, x+h \in E

時是

\mathrm{o}(h)

,即滿足

\displaystyle \lim_{E \owns h \to 0} \frac{\alpha(x;h)}{h} = 0

稱量

\Delta{x}(h) = (x + h) - x = h

為自變數的增量;稱量

\Delta{f}(x;h) = f(x+h) - f(x)

為函式

f

相應於自變數的增量

h

的增量。

定義 3:定義 2

中關於

h

的線性函式

h \mapsto A(x) h

稱為函式

f

在點

x \in E

處的微分,並用符號

\mathrm{d} f(x)

表示。

這也就是說

\mathrm{d}f(x)(h) = A(x) h

是一個依賴

x

h

的線性函式,往往提及這個函式的時候會省略

(h)

寫為

\mathrm{d} f(x)

定義 2

可以推出

A(x) = \lim_{\substack{h \to 0 \\ x, x+h \in E}} \frac{f(x+h) - f(x)}{h} = f

,那麼微分的式子可以寫成

\mathrm{d} f(x)(h) = f

。此時取

f(x) = x

,則得到

\mathrm{d} x(h) = h

,也就是“自變數的微分就是變數的增量”。微分的式子由變為

\mathrm{d} f(x)(h) = f

,這是兩個線性函式的等式,也一樣我們可以省略

(h)

記作

\mathrm{d} f(x) = f

回到這個式子:

\mathrm{d} f(x)(h) = f

,對其自然是可以做除法的:

f

,在每一個

h

上這倆線性函式取值的比值總是

f

,於是用

\frac{\mathrm{d} f}{\mathrm{d} x}(x)

標記導數

f

理解上自然可以理解為

\mathrm{d} y

除以

\mathrm{d} x

,不過需要清楚這倆的本質是什麼。但是視

\frac{\mathrm{d} y}{\mathrm{d} x}

是一個整體符號也是不影響微積分的學習的,甚至可以避免想當然。

在這條回答之前的一條匿名回答已經說了,

B. A. 卓裡奇的《數學分析》

[1]

第一卷對著一問題講得很清楚,實際上也是這一條回答的參考文獻。

老師說鏈式法則裡某個 dydx 不能理解為 dy 除以 dx,為什麼?楊樹森2020-10-18 19:07:05

可以是可以,只不過允許這種理解容易引起誤解,在學生還不能正確理解微積分時會得不償失。首先我說明為什麼在一些場合下允許將

\mathrm dy/\mathrm dx

理解為對

\mathrm dx,\mathrm dy

做除法。

對於滿足函式關係

y=f\left(x\right)

的變數

x,y,

參考導數記號,我們寫出

\frac{\mathrm dy}{\mathrm dx}=f

暫且不考慮可行性,將

\mathrm dx,\mathrm dy

看作是可以參與運算的元素,那麼

\mathrm dy=f

接下來,說明這種看法的可行性。

此時

\mathrm dx,\mathrm dy

被看作是平等的事物,既然

\mathrm dx

可以作為除數,那麼

\mathrm dy

也可以。運用導數的定義,可以求出當

f

可逆時

f^{-1}

y

處的導數值,於是

\frac{\mathrm dx}{\mathrm dy}=\frac{1}{f

結合前面的等式,對於

\mathrm dx,\mathrm dy

的運算的確和實數的運算保持一致。

從另一個角度考慮,複合函式求導法則可以記為設

y=f\left(x\right),

z=g\left(y\right),

\frac{\mathrm dz}{\mathrm dx}=\frac{\mathrm dz}{\mathrm dy}\frac{\mathrm dy}{\mathrm dx},

也體現出對於

\mathrm dx,\mathrm dy

指定這種運算是合理的。

不過,僅僅這樣還不能確定這種合理在數學上的準確性。事實上,現代數學的確找到了嚴格定義函式的微分的方法

[1]

,但是這遠遠超過了高等數學的範圍,甚至在大多數時候不是本科數學的內容。

我以一個常見的錯誤來說明過分追求直觀理解的弊端。習慣上,表示二階導數

f

為什麼是這樣呢?可以不嚴格地理解為

f

截止到這裡還沒有太大問題。但是設

y=f\left(x\right),

z=g\left(y\right),

則可以驗證

\frac{\mathrm d^2z}{\mathrm dx^2}=\frac{\mathrm dz}{\mathrm dy}\frac{\mathrm d^2y}{\mathrm dx^2}+\frac{\mathrm d^2z}{\mathrm dy^2}\left(\frac{\mathrm dy}{\mathrm dx}\right)^2,

這就不是能簡單解釋的事情了。採取不嚴格的觀點,會得到

\frac{\mathrm d^2z}{\mathrm dy^2}\left(\frac{\mathrm dy}{\mathrm dx}\right)^2=\frac{\mathrm d\left(\mathrm dz\right)\left(\mathrm dy\right)^2}{\left(\mathrm dx\right)^2\left(\mathrm dy\right)^2}=\frac{\mathrm d^2z}{\mathrm dx^2},

然而這是錯的。除非嚴格推導,否則難以說明產生錯誤的原因,從而引起費解。

雖然以不嚴格的方式引入微分不符合數學的標準,但是這樣做可以簡化一些書寫,甚至為解決數學問題提供線索,這可能是在高等數學課上提及微分的原因。

不過我認為,為了這點好處不值得冒著讓一些學生學不懂數學的風險而引入不嚴格的微分。老師不希望學生將

\mathrm dy/\mathrm dx

理解為對

\mathrm dx,\mathrm dy

做除法,也可能是出於這種考慮。

何況在高等數學課的環境下,對於定理的嚴格證明不做要求。即便對此不做評價,此時提供的所謂直觀理解,是不是應該以不容易產生誤解為準則?

老師說鏈式法則裡某個 dydx 不能理解為 dy 除以 dx,為什麼?XYXie2020-12-29 11:39:56

這個問題,要徹底理解需要從微分的定義出發(也並不難)。但理解了定義的就不再需要問這個問題,問這個問題的都是暫時沒理解定義的。

而且類似問題在數學中其實非常常見:現代數學雖然極端講究嚴謹,但數學家都是懶人,日常表達中經常會使用一些並不嚴謹或者過於簡略的notation,必須對相關領域和上下文有充分理解的人才能準確理解其意義。這樣其實對新手非常不友好。

最簡單的例子,當自變數“顯而易見”時,導數常被寫成

f

的形式。而使用中,很多時候這個自變數指的什麼並不明確。或者說作者自己很清楚,讀者並不一定清楚。中學教材這類的東西因為被反覆修改過,類似問題少一點,研究生階段各種教授給提綱PostDoc寫出來的講義裡面類似問題隨處可見。說白了就是人都懶,數學家也不例外。

回到

\frac{dy}{dx}

這個問題:

\frac{dy}{dx} = f

寫成

dy = f

,這種寫法非常不好。會讓人產生錯覺

\frac{dy}{dx}

dy \div dx

。再配合上比如chain rule寫成:

\frac{dy}{dx} \frac{dx}{dz} = \frac{dy}{dz}

會更加深這種錯覺。事實上

\frac{dy}{dx}

絕不是

dy \div dx

,只是如果用這種容易引起誤解的寫法,某些場合會湊巧看起來是對的。

一個比較簡單的理解方法是,始終記住

\frac{dy}{dx}

的更準確寫法是:

\frac{d}{dx}\cdot y

,其中

\frac{d}{dx} ()

是一個整體,這個算符表示括號裡的東西“對x求導”。這個算符的逆運算也不是

\frac{dx}{d}

,而是

\int (\cdot)dx

這樣很多其他的寫法就會有道理很多。比如不知道有多少人想過,為什麼二階導寫作

\frac{d^2y}{dx^2}

而不是

\frac{dy^2}{dx^2}

,也不等於

(\frac{dy}{dx})^2

?按剛說的那樣就很好理解,求兩次導是

\frac{d}{dx}

操作兩次,也就是

\frac{d}{dx}(\frac{d}{dx}(y)) = \frac{d^2}{dx^2} (y)

,平時寫作

\frac{d^2 y}{dx^2}

歸根到底就是早期有些數學家和數學教育家習慣不好,非要把運算物件

y

寫到算符

\frac{d}{dx}

的內部去。這樣扭曲了這個運算的意義,後面進一步衍生出了一些

dy = f

這樣的寫法後,迷惑了無數人。

到了偏微分以後,能理解這一層的人比例高了,就基本沒人寫

\partial z = f

這種東西了。當然也是因為歧義實在太大任何人都無法忽視。

我當然知道把dy和dx當作獨立的物件,在有些場景下是work的。可以用的時候確實很香。那又怎麼樣呢,不改變我說的:這種用法的使用條件其實比較苛刻,想正確使用的要求其實很高,不推薦給初學者這樣解釋,因為會引起非常多困惑。如果錯誤的以為dy和dx像普通的代數量一樣可以隨意進行各種加減乘除操作,那是完全得不償失的。

至於問這個dy/dx為什麼不是

dy \div dx

的人,我只能說,by definition就不是,區別實在是太多了,這都意識不到我也不知道怎麼講了。

至於dy和dx拆開可以用的時候,要如何理解,或者怎麼理解適用範圍,我很喜歡這個答案:

dy/dx 這是一個整體,可以確定一個極限,為什麼可以將其分開(請再看一下問題補充說明)?

從易理解到更抽象但普適性更強的解釋都有。我就不再重複了。