Guarda per come la vedo io quello che avviene in questo forum è surreale e inspiegabile. Ed è per questo che mi hai trovato non proprio ben disposto. Si parla di overfitting nei termini che hai appena detto tu e forse se vogliamo affrontare la faccenda dal punto di vista filosofico ha anche un qualche senso farlo (perché dal lato tecnico non ne ha nessuno), ma qui si va ben oltre. Qui c'è tutto un sottobosco di elementi che sono lì a blaterare di cose di cui non hanno idea. E` già qualche anno che sono qui e se da un lato ci sono quelli che davvero vogliono condividere conoscenze ed esperienze dall'altro c'è una larga fetta di utenti che si comportano sempre nello stesso modo. I tratti tipici sono i seguenti:
1. Usano sempre le stesse paroline. "Overfitting" è la più gettonata.
2. Non hanno MAI davvero nessun intento costruttivo o di condivisione. Lo scopo del gioco è sempre boh...non l'ho mai davvero capito. Deridere? Farsi belli? Ai posteri l'ardua sentenza.
3. Dietro quello che dicono non c'è mai niente. Muovono critiche sibilline che non scendono mai nel tecnico perché non hanno i mezzi per farlo. Il tanto che basta per sembrare esperti e far sembrare dilettanti gli esperti veri (che infatti nella maggior parte dei casi stanno ben lontani da qui.)
4. La loro reale competenza nella migliore delle ipotesi è l'1% di quella che millantano.
Rimaniamo sull'overfitting per esempio.
C'è la sacerdotessa PGiulia che praticamente ha fondato una religione dietro lo spauracchio del terribile e vendicativo Dio Overfitting. Un Dio che ovviamente comunica solo a lei il suo volere e quindi lei è la detentrice di questo sapere mistico di cui nessuno è degno. Tiene un thread nell'altro forum con migliaia di pagine solo per parlare di overfitting...Ma stiamo scherzando? Hai idea di quanta gente ha imbambolato con 'sta storiella?
Ora ti dico io cos'è l'overfitting. Se prendi la certificazione sul machine learning che attualmente rilascia Stanford all'overfitting è dedicata una lezione o due. Tutto qui. Non 10 anni di fuffa in un thread, ma solo due lezioni. Perché se hai una qualche competenza universitaria di base l'overfitting è una scemata ecco la verità. E` pane quotidiano per migliaia di data scientist, non c'è niente di mistico o di misterioso.
Overfitting è quando un modello ha un alto potere previsionale sul suo training set ma poi non ha potere di generalizzazione e la sua performance crolla sui dati nuovi. Fine della storia.
Quindi, udite udite, è sufficiente che tu abbia dati freschi su cui testare il modello e saprai se c'è overfitting o no.
Ecco qui, 3 righe. Non tremila pagine di thread. Solo 3 righe. Tutto qui.
Se io avessi dato retta a PGiulia e ad altri illustri troll fuffari ad oggi non avrei un lavoro e starei sui forum a blaterare di pseudoscienza.
Ora ti mostro che è esattamente tutto qui. Questo che segue è il modello a cui sto lavorando ora:
Porto Seguro’s Safe Driver Prediction | Kaggle
Tutto molto semplice, un problemino di classificazione. La storia più vecchia del mondo, una compagnia di assicurazioni auto vuole un modello previsionale su big data per stabilire chi avrà incidenti e chi no per adeguare i premi. (Tra l'altro ci sono 25k $ per i primi classificati.)
Ora le modalità sono le seguenti:
1. Nella sezione Data trovi un db di training e uno di test.
2. In quello di test non sono presenti i target quindi lì non puoi addestrare nulla.
3. Tu addestri un modello secondo i mezzi che hai sul db di training.
4. Produci uno forecast sul db di test e glielo mandi.
5. Loro misurano la performance (coefficiente di Gini) del tuo forecast e quelli con la performance più alta vincono e sono tenuti a consegnare il codice.
Ora, tutto quello che vogliono sapere per ritenere il tuo modello valido, pagarti e rendere il modello operativo (in volumi d'affari di centinaia di milioni,) è se il tuo modello va bene o male su un set su cui non ha ricevuto addestramento. Se va bene lo ritengono solido e non soggetto a overfitting.
FINE
DELLA
STORIA
La prossima obiezione sarà "sì ma che ne sanno loro, vuoi mettere con PGiulia? Questi sono solo poveri assicuratori brasiliani..."
Benissimo.
Passenger Screening Algorithm Challenge | Kaggle
Questo è un contest indetto direttamente dall'homeland security americana per l'antiterrorismo. In palio mettono un milione e mezzo. Il problema è molto più complesso perché richiede modelli avanzati per l'image recognition (il deep learning di cui parlavamo per intenderci...) ma le modalità di assegnazione del premio sono assolutamente identiche.
Per concludere, il punto è che overfitting e tante altre amenità sono semplici strumenti del mestiere per alcuni che sanno quello che fanno e fuffa da forum per altri. Qui purtroppo ci sono un sacco di "altri".