Modele de substitution

Avec la mesure R-squared, nous pouvons facilement mesurer la qualité de nos modèles de substitution en rapprochant les prédictions de la boîte noire. FIGURE 5,32: les noeuds terminaux d`un arbre de substitution qui se rapproche des prédictions d`une forêt aléatoire formée sur le jeu de données sur le cancer du col utérin. Les nombres dans les noeuds indiquent la fréquence des classifications de modèles de boîte noire dans les noeuds. Dans l`optimisation basée sur le modèle de substitution, un substitut initial est construit en utilisant une partie du budget disponible des expériences et/ou des simulations coûteuses. Les expériences/simulations restantes sont exécutées pour des conceptions que le modèle de substitution prédit peut avoir des performances prometteuses. Le processus prend généralement la forme de la procédure de recherche/mise à jour suivante. J`ai utilisé le paquet IML R pour les exemples. Si vous pouvez former un modèle de machine learning, vous devriez être en mesure d`implémenter vous-même des modèles de substitution. Il suffit de former un modèle interprétable pour prédire les prédictions du modèle de boîte noire. Les modèles de substitution fondés sur des comparaisons récemment proposés (par exemple la machine vectorielle de support de classement) pour les algorithmes évolutionnaires, tels que CMA-ES, permettent de préserver certaines propriétés d`invariance des optimiseurs assistés par substitution: [6] Notez que nous n`avons pas parlé de la modèle de la boîte noire sous-jacente, à savoir comment bon ou mauvais il effectue dans la prédiction du résultat réel.

Les performances du modèle de boîte noire ne jouent pas un rôle dans la formation du modèle de substitution. L`interprétation du modèle de substitution est toujours valide parce qu`elle fait des déclarations sur le modèle et non sur le monde réel. Mais bien sûr, l`interprétation du modèle de substitution devient sans pertinence si le modèle de boîte noire est mauvaise, car alors le modèle de boîte noire elle-même est hors de propos. Les modèles de substitution sont également utilisés dans l`ingénierie: si un résultat d`intérêt est coûteux, chronophage ou autrement difficile à mesurer (par exemple parce qu`il provient d`une simulation informatique complexe), un modèle de substitution bon marché et rapide du résultat peut être utilisé à la place. La différence entre les modèles de substitution utilisés dans l`ingénierie et dans l`apprentissage machine interprétable est que le modèle sous-jacent est un modèle de machine learning (pas une simulation) et que le modèle de substitution doit être interprétable. Le but des modèles de substitution (interprétables) est de rapprocher les prédictions du modèle sous-jacent aussi précisément que possible et d`être interprétables en même temps. L`idée de modèles de substitution peut être trouvée sous des noms différents: modèle d`approximation, métamodèle, modèle de surface de réponse, émulateur,… où (hat{y}_ * ^ {(i)} ) est la prédiction pour l`instance i-th du modèle de substitution, (hat{y} ^ {(i)} ) la prédiction du modèle de boîte noire et (bar{hat{y}}) la moyenne des prédictions de modèle de boîte noire.

SSE signifie erreur de somme des carrés et SST pour la somme des carrés totaux. La mesure R-squared peut être interprétée comme le pourcentage de variance capturé par le modèle de substitution. Si R-squared est proche de 1 (= faible SSE), alors le modèle interprétable se rapproche très bien du comportement du modèle de boîte noire. Si le modèle interprétable est très proche, vous souhaiterez peut-être remplacer le modèle complexe par le modèle interprétable. Si le R-squared est proche de 0 (= haute SSE), alors le modèle interprétable ne parvient pas à expliquer le modèle de boîte noire. Le modèle de substitution a un R-carré (variance expliquée) de 0,2, ce qui signifie qu`il ne se rapproche pas du puits de la forêt aléatoire et nous ne devrions pas exaginterpréter l`arbre lors de l`élaboration de conclusions sur le modèle complexe. Procédez comme suit pour obtenir un modèle de substitution: Premièrement, nous formons une machine vectorielle de support pour prédire le nombre quotidien de vélos loués donnés météo et des informations de calendrier. La machine de vecteur de support n`est pas très interprétable, ainsi nous entraînez un substitut avec un arbre de décision de chariot comme modèle interprétable pour rapprocher le comportement de la machine de vecteur de support.