Come varia una funzione rispetto a una sua variabile?
Ad esempio, come varia la posizione rispetto al tempo? La pressione di un sistema nello spazio? A queste domande risponde la derivata, ovvero una funzione che "deriva" dalla funzione originaria, la quale deve rispettare delle condizioni dette "di derivabilità". In sostanza, la derivata è una funzione che misura il cambiamento di una funzione \(f\) rispetto a una o più sue variabili.
Inizieremo definendo la derivata per una funzione a una variabile, per poi passare a più dimensioni. Questo post coprirà solo la punta dell'iceberg del calcolo differenziale, ma al contempo copre molti argomenti sempre più difficili da digerire, quindi preparati, sangue freddo e prenditi il tuo tempo.
In un prossimo post vedremo le regole di derivazione e le cosiddette derivate fondamentali, che permettono di determinare la derivata di una funzione velocemente, senza dover calcolare il limite della definizione.
Sommario
- La derivata di una funzione in \(\mathbb{R}\)
- La derivata di una funzione in \(\mathbb{R}^n\)
- La derivata di un campo scalare
- La derivata direzionale
- La derivata parziale e il gradiente
- La relazione tra derivata direzionale e derivate parziali
- La derivata di un campo vettoriale
- La matrice hessiana e il teorema di Schwarz
- Fonte delle immagini
La derivata di una funzione in \(\mathbb{R}\)
Sia \(D \subseteq \mathbb{R}\) e sia \(f : D \rightarrow \mathbb{R}\) una funzione. Possiamo definire rapporto incrementale \(R(x,y)\) di \(f\) nell'intervallo \([x,y] \subseteq D\) come il rapporto tra l'incremento \(\Delta f = f(y)-f(x)\) e la lunghezza \(\Delta x = y-x\) dell'intervallo \([x,y] \):
$$R(x,y) := \dfrac{\Delta f}{\Delta x} = \dfrac{f(y)-f(x)}{y-x}$$
Il rapporto incrementale non è altro che un indice di quanto sia aumentata mediamente la funzione \(f\) nell'intervallo \([x,y]\). Dipende dai punti \(x,y \in \mathbb{R}\) che si scelgono, ma può essere espresso in funzione dalla lunghezza \(h = y-x\) dell'intervallo:
$$R(x,h) := \dfrac{f(x+h)-f(x)}{h}$$
Operativamente, il rapporto incrementale corrisponde al coefficiente angolare della retta passante per i punti \((x,f(x))\) e \((y,f(y))\).
Figura 1: schema del rapporto incrementale. |
Ora possiamo progressivamente diminuire la lunghezza \(h\) dell'intervallo. Per \(y\) tendente a \(x\) (in matematica si scrive \(y\rightarrow x\)) la lunghezza dell'intervallo diventa infinitamente piccola (o, in gergo, infinitesima) e si segna con la notazione \(dx\). Allo stesso modo, la distanza tra \(f(x)\) e \(f(y)\) diventa infinitamente piccola e si segna con \(df\).
Il rapporto incrementale per \(y\) tendente a \(x\) si definisce derivata della funzione \(f\):
$$ \dfrac{df(x)}{dx} := \lim\limits_{y\rightarrow x}{R(x,y)} = \lim\limits_{y\rightarrow x}{\dfrac{f(y)-f(x)}{y-x}}$$
o, ugualmente,
$$\dfrac{df(x)}{dx} := \lim\limits_{h\rightarrow 0}{R(x,h)} = \lim\limits_{h\rightarrow 0}{\dfrac{f(x+h)-f(x)}{h}}$$
Attenzione! Non c'è una definizione migliore o più giusta tra le due appena proposte. Esse sono identiche! La seconda si può ottenere dalla prima sostituendo \(y=x+h\).
La differenza tra il rapporto incrementale e la derivata è che il primo è la variazione media di \(f\) in \([x,y]\) e dipende dai punti \(x\) e \(y\), mentre la seconda è la variazione puntuale di \(f\) e dipende solo dal punto \(x\). Operativamente, la derivata corrisponde al coefficiente angolare della retta tangente a \(f\) nel punto \(x\). Come si può osservare dal grafico, mentre il rapporto incrementale nell'intervallo \([x,y]\) dipende solo dai punti iniziale \(x\) e finale \(y\), la derivata varia costantemente all'interno dello stesso intervallo.
Se il limite esiste ed è finito, la funzione \(f\) si dice derivabile (o differenziabile) in \(x\). Se la funzione \(f\) è derivabile in ogni \(x\) appartenente al suo dominio \(D\), \(f\) si dice derivabile in \(D\).
Ad esempio, sia \(f:\mathbb{R}\rightarrow \mathbb{R}, f(x)=3x^2+4x+1\). Il suo rapporto incrementale è
\(\quad R(f,h) = \dfrac{3(x+h)^2+4(x+h)+1-(3x^2+4x+1)}{h} =\)\(\quad \dfrac{3h^2+6hx+4h}{h}=3h+6x+4\)
mentre la sua derivata è
\(\quad \dfrac{df(x)}{dx} := \lim\limits_{h\rightarrow 0}{(3h+6x+4)} = 6x+4\)
Grazie alla derivata si può definire l'approssimante lineare della funzione \(f\) in un punto \(x_0 \in D\), corrispondente all'equazione della retta tangente al grafico di \(f\) nel punto \((x_0,f(x_0))\):
$$ f(x) = f(x_0) + \dfrac{df}{dx} (x-x_0) $$
Attenzione! La continuità non implica la derivabilità! Prendi come esempio la funzione \(f(x)=|x|\). Questa è continua in \(x=0\). Infatti:
\( \quad \lim\limits_{x \rightarrow 0^-}{f(x)} = \lim\limits_{x \rightarrow 0^+}{f(x)} = 0 \)
Tuttavia, non è derivabile in \(x=0\). Infatti:
\( \quad \lim\limits_{h\rightarrow 0^-}{\dfrac{f(h)-f(0)}{h}} = \lim\limits_{h\rightarrow 0^-}{\dfrac{|h|}{h}} = -1 \neq 1 = \lim\limits_{h\rightarrow 0^+}{\dfrac{|h|}{h}} = \lim\limits_{h\rightarrow 0^+}{\dfrac{f(h)-f(0)}{h}} \)
Essendo i limiti destro e sinistro diversi, il limite per \(h\rightarrow 0\) non esiste.
La derivata di una funzione in \(\mathbb{R}^n\)
La derivata di un campo scalare
In più dimensioni il concetto di derivata diventa più difficile da definire. Introduciamo per prima la nozione di derivata direzionale, per poi vedere la derivata parziale come caso particolare di derivata direzionale.
La derivata direzionale
In \(n\in \mathbb{N} \setminus \{0,1\}\) dimensioni dobbiamo necessariamente definire una direzione di derivazione. Per farlo ci serviremo di un versore \(\underline{u} \in \mathbb{R}^n\). Sia \(D \subseteq \mathbb{R}^n\) e sia \(f: D \rightarrow \mathbb{R}\). Si definisce derivata direzionale di \(f\) rispetto al versore \(\underline{u}\) il limite
$$\dfrac{\partial f(\underline{x})}{\partial \underline{u}} := \lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x}+h\underline{u})-f(\underline{x})}{h}}$$
Questa derivata rappresenta il tasso di variazione della funzione \(f\) in direzione \(v\). Nota che, scegliendo il versore \(\underline{v}\) sulla stessa direzione, ma con verso opposto (ovvero, \(\underline{v}=-\underline{u}\)) si ottiene la relazione
\(\quad \dfrac{\partial f(\underline{x})}{\partial \underline{v}} := \lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x}+h\underline{v})-f(\underline{x})}{h}} = \lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x}-h\underline{u})-f(\underline{x})}{h}} =\)\(\quad -\lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x})-f(\underline{x}-h\underline{u})}{h}} = -\dfrac{\partial f(\underline{x})}{\partial \underline{u}} \)
tra le derivate direzionali. Quindi il segno della derivata dipende dal verso scelto sulla direzione.
Nota anche che per \(n=1\) si ottiene la definizione della derivata in \(\mathbb{R}\) data nel capitolo precedente. Infatti, per \(n=1\) l'unica direzione che si può scegliere è determinata dal versore \(\underline{i}=1\).
$$\dfrac{\partial f(\underline{x})}{\partial \underline{i}} := \lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x}+h\underline{i})-f(\underline{x})}{h}} =\lim\limits_{h\rightarrow 0}{\dfrac{f(x+h)-f(x)}{h}} =: \dfrac{df(x)}{dx}$$
L'unica direzione selezionabile è quella corrispondente all'asse cartesiano delle ascisse, pertanto di omette la direzione. Proveremo a far qualcosa di simile anche in \(n\) dimensioni con le derivate parziali.
Ad esempio, sia \(f:\mathbb{R}^2 \rightarrow \mathbb{R}, f(x,y)=3x^2+4y^2+4xy+1\). La sua derivata direzionale in direzione \(\underline{u}=\left[1/\sqrt{5},2/\sqrt{5}\right]^T\) è
\(\quad \dfrac{\partial f(x,y)}{\partial \underline{u}} :=\)\(\quad \lim\limits_{h\rightarrow 0}{\dfrac{3\left(x+\dfrac{h}{\sqrt{5}}\right)^2+4\left(y + \dfrac{2}{\sqrt{5}} h \right)^2+4\left(x+\dfrac{h}{\sqrt{5}}\right)\left(y + \dfrac{2}{\sqrt{5}} h\right)+1-(3x^2+4y^2+4xy+1)}{h}} = \)\(\quad \lim\limits_{h\rightarrow 0}{\left(\dfrac{27}{5} h + \dfrac{14}{\sqrt{5}}x + \dfrac{20}{\sqrt{5}} y \right)} = \dfrac{2}{\sqrt{5}} ( 7x + 10y )\)
Non ti preoccupare, non dovrai calcolare derivate con il limite. Il 99% delle volte si applicano delle regole di derivazione che vedremo in un prossimo post.
La derivata parziale e il gradiente
Chiaramente, si può scegliere anche come direzione quella lungo uno dei versori che definiscono la base del sistema di riferimento. Sia \(D \subseteq \mathbb{R}^n \), sia \(f:D \rightarrow \mathbb{R}\) e sia \( \mathcal{B}=\left\{\underline{e}_1,\underline{e}_2,...,\underline{e}_n\right\}\) la base canonica di \(\mathbb{R}^n\). Si definisce derivata parziale rispetto a una variabile \(x_j\) la derivata direzionale nella direzione e verso del versore \(\underline{e}_j\):
$$\dfrac{\partial f(\underline{x})}{\partial x_j}:= \dfrac{\partial f(\underline{x})}{\partial \underline{e}_j} $$
In altri termini:
$$ \dfrac{\partial f(\underline{x})}{\partial x_j} = \lim\limits_{h\rightarrow 0}{\dfrac{f(x_1,x_2,...,x_j+h,...x_n)-f(\underline{x})}{h}}$$
Nota che questa operazione equivale a calcolare la derivata come in una dimensione, considerando le altre variabili costanti.
Il vettore \(\nabla f \in \mathbb{R}^n\) le cui componenti sono costituite dalle derivate parziali del campo scalare \(f\) si definisce gradiente:
$$\nabla f (\underline{x})= \left[ \begin{array}{c} \dfrac{\partial f(\underline{x})}{ \partial x_1} \\ \vdots \\ \dfrac{\partial f(\underline{x})}{ \partial x_n} \end{array} \right]$$
Si può dimostrare che il gradiente è perpendicolare al grafico di \(f\) in ogni suo punto (tranne nei punti della frontiera, in cui il gradiente non esiste). Il simbolo \(\nabla = \left[ \frac{\partial}{\partial x_1},...,\frac{\partial}{\partial x_n} \right]^T\) si chiama operatore nabla (o, semplicemente, nabla).
L'approssimante lineare della funzione \(f\) nel punto \(\underline{x}_0 \in D\) sarà definito per mezzo del suo gradiente:
$$f(\underline{x}) = f(\underline{x}_0) + \langle \nabla f (\underline{x}) , \underline{x} - \underline{x}_0 \rangle $$
L'equazione dell'approssimante lineare rappresenta l'iperpiano tangente al grafico di \(f\) nel punto \((\underline{x}_0,f(\underline{x}_0))\).
La relazione tra derivata direzionale e derivate parziali
Esiste una relazione tra la derivata direzionale e le derivate parziali? Certo! Questa esiste mediante il gradiente e il prodotto scalare. Sia \(\langle \cdot,\cdot \rangle : \mathbb{R}^n \times \mathbb{R}^n \rightarrow \mathbb{R}\) il prodotto scalare euclideo e sia \(\underline{v}\) un versore. Si ha
$$ \dfrac{\partial f(\underline{x})}{\partial \underline{v}} = \langle \nabla f (\underline{x}) , \underline{v} \rangle $$
Esprimendo il versore \(\underline{v} = [v_1,...,v_n]^T\) nelle sue coordinate ed eseguendo il prodotto matriciale, si può giungere a una forma più esplicita:
$$ \dfrac{\partial f(\underline{x})}{\partial \underline{v}} = \sum\limits_{j=1}^{n}{\dfrac{\partial f(\underline{x})}{\partial x_j} v_j} $$
Intuitivamente, la relazione è vera perché il prodotto scalare \( \langle \nabla f (\underline{x}) , \underline{v} \rangle \) restituisce come risultato la componente del vettore \( \nabla f (\underline{x}) \) in direzione del versore \(\underline{v}\).
Rigorosamente, la precedente relazione si dimostra con lo sviluppo della funzione \(f\) in polinomio di Taylor troncato al primo ordine (l'approssimante lineare visto prima con resto di Peano). Calcoliamo il polinomio di Taylor di primo ordine di \(f\) in \(\underline{x}+h\underline{v}\):
\(\quad f(\underline{x}) = f(\underline{x}+h\underline{v}) + \langle \nabla f (\underline{x}) , \underline{x} - (\underline{x}+h\underline{v}) \rangle + o( \underbrace{\lVert \underline{x} - (\underline{x}+h\underline{v}) \rVert}_{=\lVert -h\underline{v} \rVert = h } ) =\)\(\quad f(\underline{x}+h\underline{v}) - h \langle \nabla f (\underline{x}) , \underline{v} \rangle + h o( 1 ) \)
Allora, segue che
\( \quad \dfrac{\partial f(\underline{x})}{\partial \underline{v}} = \lim\limits_{h\rightarrow 0}{\dfrac{f(\underline{x}+h\underline{v})-f(\underline{x})}{h}} = \lim\limits_{h\rightarrow 0}{\dfrac{h \langle \nabla f (\underline{x}) , \underline{v} \rangle + h o( 1 ) }{h}} = \)\(\quad \lim\limits_{h\rightarrow 0}{\langle \nabla f (\underline{x}) , \underline{v} \rangle} + \lim\limits_{h\rightarrow 0}{o( 1 )} = \langle \nabla f (\underline{x}) , \underline{v} \rangle \)
Adesso, perché \(o( 1 )\) tende a \(0\) per \(h\) tendente a \(0\)? Abbiamo definito l'approssimante lineare in \(\underline{x}+h\underline{v}\). Ciò significa che l'argomento dell'o-piccolo tende a \(0\) per \(\underline{x}\) tendente a \(\underline{x}+h\underline{v}\) o, equivalentemente, per \(h\) tendente a \(0\).
\(\quad \lim\limits_{h\rightarrow 0}{o( 1 )} = \lim\limits_{\underline{x} \rightarrow \underline{x} + h\underline{v}}{o( 1 )} = 0 \)
La derivata di un campo vettoriale
Ora, come definire la derivata direzionale (e, quindi, la derivata parziale) per un campo vettoriale? Proviamo a generalizzare quanto detto per i campi scalari. Sia \(D \subseteq \mathbb{R}^n\) e sia \(f: D \rightarrow \mathbb{R}^m\). Per \(m=1\) \(f\) è un campo scalare. Possiamo considerare un campo vettoriale con una \(m\)-upla di campi scalari \(f_1,...,f_m : D \rightarrow \mathbb{R}\):
\(\quad f(\underline{x}) = \left[ \begin{array}{c} f_1(\underline{x}) \\ \vdots \\ f_m (\underline{x}) \end{array} \right] \)
A questo punto definiamo la derivata direzionale di \(f\) in direzione del versore \(\underline{v}\) come le derivate direzionali delle componenti del campo vettoriale:
$$ \dfrac{\partial f(\underline{x})}{\partial \underline{v}} = \left[ \begin{array}{c} \dfrac{\partial f_1(\underline{x})}{\partial \underline{v}} \\ \vdots \\ \dfrac{\partial f_m(\underline{x})}{\partial \underline{v}} \end{array} \right] $$
Quindi, la derivata parziale rispetto alla \(j\)-esima variabile sarà data dal vettore delle derivate parziali delle componenti:
$$ \dfrac{\partial f(\underline{x})}{\partial x_j} = \left[ \begin{array}{c} \dfrac{\partial f_1(\underline{x})}{\partial x_j} \\ \vdots \\ \dfrac{\partial f_m(\underline{x})}{\partial x_j} \end{array} \right] $$
Possiamo definire un analogo del gradiente anche per il campo vettoriale. Si definisce matrice jacobiana o matrice di Jacobi del campo vettoriale \(f\) la matrice \(\mathrm{J}f\) le cui righe sono costituite dai gradienti trasposti delle componenti:
$$ \mathrm{J}f (\underline{x})= \left[ \begin{array}{c} {\nabla f_1}^T(\underline{x}) \\ \vdots \\ {\nabla f_m}^T (\underline{x}) \end{array} \right] = \left[ \begin{array}{ccc} \dfrac{\partial f_1(\underline{x})}{\partial x_1} & \dotsb & \dfrac{\partial f_1(\underline{x})}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial f_m (\underline{x})}{\partial x_1} & \dotsb & \dfrac{\partial f_m(\underline{x})}{\partial x_n} \end{array} \right] $$
Nota: per \(m=1\) il gradiente coincide con la matrice jacobiana trasposta.
L'approssimante lineare del campo vettoriale \(f\) nel punto \(\underline{x}_0\) si definisce con la matrice jacobiana:
$$ f(\underline{x}) = f(\underline{x}_0) + \mathrm{J}f (\underline{x})(\underline{x}-\underline{x}_0) $$
Mentre la relazione tra derivata direzionale e derivate parziali di un campo vettoriale è definita tramite la matrice jacobiana:
$$ \dfrac{\partial f(\underline{x})}{\partial \underline{v}} = \mathrm{J}f (\underline{x}) \underline{v} $$
La matrice hessiana e il teorema di Schwarz
Torniamo ai campi scalari. Sia \(D \subseteq \mathbb{R}^n\) e sia \(f: D \rightarrow \mathbb{R}\) derivabile in \(\underline{x} \in D\). Se il gradiente \(\nabla f\) è derivabile in \(\underline{x}\), la matrice jacobiana del gradiente si definisce matrice hessiana \(\mathrm{H}f\) o matrice di Hesse:
$$ \mathrm{H} f (\underline{x}) = \mathrm{J}\nabla f( \underline{x}) = \left[ \begin{array}{ccc} \dfrac{\partial^2 f (\underline{x})}{{\partial x_1}^2} & \dotsb & \dfrac{\partial^2 f (\underline{x})}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial^2 f (\underline{x})}{\partial x_n \partial x_1} & \dotsb & \dfrac{\partial^2 f (\underline{x})}{{\partial x_n}^2} \end{array} \right] $$
Nota bene: la matrice hessiana è sempre quadrata. Inoltre, se le derivate seconde di \(f\) sono continue in un sottospazio \(U\subseteq D\), allora la matrice hessiana è simmetrica in ogni punto di \(U\). Ne consegue il teorema di Schwarz:
$$ \forall \underline{x} \in U \mspace{3mu} \forall i,j \in \{1,...,n\} \quad \dfrac{\partial^2 f (\underline{x})}{\partial x_i \partial x_j} = \dfrac{\partial^2 f (\underline{x})}{\partial x_j \partial x_i} $$
Grazie alla matrice hessiana si può definire l'approssimante di secondo ordine del campo scalare \(f\):
$$f(\underline{x}) = f(\underline{x}_0) + \langle \nabla f (\underline{x}) , \underline{x} - \underline{x}_0 \rangle + \dfrac{1}{2} \langle \mathrm{H} f (\underline{x}) , \underline{x} - \underline{x}_0 \rangle + o( \lVert \underline{x} - \underline{x}_0 \rVert )$$
Ottimo! Se sei arrivato fino all'ultimo senza impazzire, hai davvero il sangue freddo! Queste nozioni potrebbero sembrarti astratte per ora, ma hanno moltissime applicazioni in elettromagnetismo, in meccanica razionale e non solo.
Fonte delle immagini
Figure 1 e 2: generate con Microsoft OneNote.
Figura 3: di Pajs, pubblico dominio, https://commons.wikimedia.org/w/index.php?curid=3254418.
Commenti
Posta un commento