학술논문

On Uncertainty Quantification in Neural Networks: Ensemble Distillation and Weak Supervision
Document Type
Author
Source
FiF-avhandling - Filosofiska fakulteten – Linköpings universitet.
Subject
Language
English
ISSN
1401-4637
Abstract
Machine learning models are employed in several aspects of society, ranging from autonomous cars to justice systems. They affect your everyday life, for instance through recommendations on your streaming service and by informing decisions in healthcare, and are expected to have even more influence in society in the future. Among these machine learning models, we find neural networks which have had a wave of success within a wide range of fields in recent years. The success of neural networks are partly attributed to the very flexible model structure and, what it seems, endless possibilities in terms of extensions.While neural networks come with great flexibility, they are so called black-box models and therefore offer little in terms of interpretability. In other words, it is seldom possible to explain or even understand why a neural network makes a certain decision. On top of this, these models are known to be overconfident, which means that they attribute low uncertainty to their predictions, even when uncertainty is, in reality, high. Previous work has demonstrated how this issue can be alleviated with the help of ensembles, i.e. by weighing the opinion of multiple models in prediction. In Paper I, we investigate this possibility further by creating a general framework for ensemble distribution distillation, developed for the purpose of preserving the performance benefits of ensembles while reducing computational costs. Specifically, we extend ensemble distribution distillation to make it applicable to tasks beyond classification and demonstrate the usefulness of the framework in, for example, out-of-distribution detection.Another obstacle in the use of neural networks, especially deep neural networks, is that supervised training of these models can require a large amount of labelled data. The process of annotating a large amount of data is costly, time-consuming and also prone to errors. Specifically, there is a risk of incorporating label noise in the data. In Paper II, we investigate the effect of label noise on model performance. In particular, under an input-dependent noise model, we analyse the properties of the asymptotic risk minimisers of strictly proper and a set of previously proposed, robust loss functions. The results demonstrate that reliability, in terms of a model’s uncertainty estimates, is an important aspect to consider also in weak supervision and, particularly, when developing noise-robust training algorithms.Related to annotation costs in supervised learning, is the use of active learning to optimise model performance under budget constraints. The goal of active learning, in this context, is to identify and annotate the observations that are most useful for the model’s performance. In Paper III, we propose an approach for taking advantage of intentionally weak annotations in active learning. What is proposed, more specifically, is to incorporate the possibility to collect cheaper, but noisy, annotations in the active learning algorithm. Thus, the same annotation budget is enough to annotate more data points for training. In turn, the model gets to explore a larger part of the input space. We demonstrate empirically how this can lead to gains in model performance.
Maskininlärningsmodeller används i flera delar av samhället, från autonoma fordon till rättssystem. De påverkar redan nu din vardag, exempelvis via personliga rekommendationer i din direktuppspelningstjänst (”streaming service”) och genom att agera beslutsstöd i vården, och förväntas ha än mer påverkan i samhället i framtiden. Bland dessa maskininlärningsmodeller, finner vi neurala nätverk som har haft stor framgång inom flera fält under det senaste årtiondet. Framgången beror delvis på neurala nätverks flexibla modellstruktur och, vad det verkar, oändliga utvecklingsmöjligheter.Neurala nätverk erbjuder stor flexibilitet, men har en nackdel i att de är så kallade black-box-modeller. Detta innebär att det sällan går att förklara eller ens förstå varför ett neuralt nätverk tar ett visst beslut. Dessutom, så har den här typen av modeller en tendens att vara överdrivet självsäkra, vilket betyder att de rapporterar låg osäkerhet i sina beslut, även när osäkerheten i själva verket är hög. För ett självkörande fordon skulle detta till exempel kunna innebära att fordonet bedömer en vänstersväng som mycket säker, när sikten över det mötande körfältet är skymd och ett mötande fordon mycket väl kan finnas just bakom krönet. Tidigare forskning har demonstrerat hur denna typ av problem kan avhjälpas genom att använda flera neurala nätverk som samspelar för att prediktera eller ta ett beslut. På detta sätt fås en modell som är mer korrekt och som också är mer pålitlig när det kommer till att ge en uppskattning av den egna osäkerheten. I denna avhandling undersöker vi vidare hur vi kan lära ett enskilt neuralt nätverk att efterlikna flera samspelande modeller, för att minska de kostnader som kommer med att ha flera samspelande modeller i bruk.En annan begränsande faktor när det kommer till neurala nätverk är att de kan behöva en stor mängd insamlad data med tillhörande etiketter för att lära sig den uppgift som de är ämnade för. Att införskaffa etiketter för en stor mängd datapunkter är både kostsamt och tidskrävande och det finns en risk att det blir fel i annoteringsprocessen. Mer specifikt så kan felaktiga etiketter, så kallat etikettbrus, inkluderas i datan. Detta i sin tur kan skada modellens förmåga att ta korrekta beslut. Vi undersöker hur denna effekt tar sig form och finner att etikettbrus inte bara kan ha en negativ effekt på nämnda förmåga att ta korrekta beslut, utan även på förmågan att skatta den egna osäkerheten.Relaterat till annoteringskostnader, föreslår vi till sist ett tillvägagångssätt för att utnyttja brusiga etiketter i aktiv inlärning. Målet med aktiv inlärning, i denna kontext, är att identifiera och annotera de observationer som kommer att vara mest hjälpsamma i modellens inlärningprocess. Förslaget är att, i aktiv inlärning, ge möjligheten att samla in billigare, men brusiga, etiketter. På så sätt kan en begränsad annoteringsbudget räcka till att annotera fler datapunkter, vilket i sin tur kan leda till en bättre modell. Det senare är något som påvisas experimentellt.