Die Interpretation von Text und die automatisierte Extraktion von fundamentaler Information aus Text steckt derzeit allerdings noch in den Kinderschuhen. „Sowohl aktuelle Studien als auch State of the Art-Ansätze konzentrieren sich darauf, das Sentiment eines gegebenen Textes zu bestimmen, wobei im Normalfall drei Kategorien – positiv, negativ und neutral – unterschieden werden“, erklärt Univ.-Prof. DDr. Michael Halling, Wissenschaftliche Leitung des IQAM Research Centers. Darüber hinaus generieren diese Ansätze aufgrund der im Allgemeinen großen Anzahl unterschiedlicher Worte, von denen in einem durchschnittlichen Text jedoch nur sehr wenige vorkommen, ineffiziente mathematische Repräsentationen des Texts, die bei der weiteren Verarbeitung häufig zu Problemen führen.
Die letzte Generation von Natural Language Processing (NLP)-Algorithmen ist optimiert, um genau diese Probleme zu lösen. Das BERT-System (Bidirectional Encoder Representations from Transformers) wurde 2018 von Google vorgestellt und repräsentiert im Moment das Benchmark-Modell im NLP-Bereich. Es ist in der Lage kontextuelle Wortrepräsentationen darzustellen und kann einem spezifischen Wort je nach Kontext unterschiedliche Bedeutungen zuordnen. Das gesamte System hat 110 Millionen Parameter und wurde auf mehr als drei Milliarden Wörtern vortrainiert.
Wie funktioniert der BERT-Algorithmus im finanzwirtschaftlichen Kontext?
Im Rahmen eines Projekts des IQAM Research Centers unter Wissenschaftlicher Leitung von Univ.-Prof. DDr. Thomas Dangl wird eine vereinfachte Form des BERT-Modells trainiert, das einerseits effizienter zu schätzen und andererseits für die Verarbeitung von finanzwirtschaftlichen Nachrichten optimiert ist. Zu diesem Zweck werden 372.438 Nachrichtenartikel im Zeitraum von Jänner 1996 bis Februar 2020 genutzt. Um die Güte des Klassifikationsmodells zu beurteilen, macht es Sinn zu evaluieren, wie oft das Modell das Sentiment im vorabklassifizierten Trainingsdatensatz korrekt klassifiziert. Dieser Wert ist im gegebenen Fall rund 58 % und stellt fast eine Verdopplung zu einem naiven Modell dar. Naive Modelle, die Sentiment völlig zufällig klassifizieren, liegen in rund 33 % der Fälle richtig. Auf der anderen Seite erreicht das volle BERT-Modell einen Wert von weit über 90 % in einer Datenbank von 50.000 Filmkritiken – eine Datenbank, die sehr oft in akademischen Studien über Sentiment-Klassifikation verwendet wird. „Dieser Vergleich zeigt eindrucksvoll, dass das spezifische Anwendungsgebiet eine große Rolle spielt und dass der finanzwirtschaftliche Kontext, beispielsweise aufgrund der Variabilität von Aktienpreisen, besonders herausfordernd ist“, so Halling weiter.
IQAM Research Center zeigt möglichen Einsatz von Algorithmus in Handelsstrategien
Im Rahmen des IQAM Research Center-Projektes wird für ein Investmentuniversum von 1.330 Unternehmen gezeigt, welche die Konstituenten des S&P 500 über den Betrachtungszeitraum der Studie darstellen, dass die automatisiert generierten Sentiment-Klassifikationen in Handelsstrategien genutzt werden können. Beispielsweise finden die Experten heraus, dass die folgende Strategie abnormale monatliche Renditen von mehr als 6 % – vor Berücksichtigung von Transaktionskosten – generiert: Man kauft an einem spezifischen Tag Aktien, für die aktuelle Nachrichten mit positivem Sentiment vorhanden sind und leerverkauft jene Aktien, für die Nachrichten mit negativem Sentiment vorhanden sind.
Deka Investment nutzt NLP-Methoden zur Generierung von Investitionssignalen
Die Experten von Deka Investment unter Leitung von Dr. Dominik Wolff, Head of Quantitative Research und Portfoliomanager in der quantitativen Asset Allocation, folgen einem anderen Weg. Sie verwenden NLP-Methoden, um aus Unternehmensberichten Investitionssignale zu generieren. Im Spezifischen werden dabei sogenannte 8-K Filings für US- und Ad-Hoc-Veröffentlichungen für deutsche Unternehmen analysiert, die im Falle von Aktienkurs relevanter Unternehmensevents wie Akquisitionen von börsennotierten Unternehmen verfasst werden müssen. Eines der untersuchten Signale ist ein Sentiment-Indikator. Zusätzlich nutzen die Experten von Deka Investment Signale, die versuchen die Qualität bzw. Lesbarkeit des Textes, aber auch die Spezifizität der Information zu quantifizieren. Diese textbasierten Signale werden dann zusammen mit Aktienmarktsignalen wie Liquidität, Handelsvolumen oder historischen Renditen in Vorhersagemodellen kombiniert und liefern je nach betrachteter Strategie eine Rendite von bis zu 14 % pro Jahr.
Erfolgversprechende Research-Studien beider Häuser
Aktuelle Ergebnisse bzgl. der Sentiment-Klassifikation von News zeichnen ein vielversprechendes Bild von Fähigkeiten automatisierter Systeme wie BERT und dem Nutzen textbasierter Investitionssignale im Asset Management. „Ob diese Systeme auch in der Lage sein werden, verlässlich und nachvollziehbar fundamentale ökonomische Informationen aus Text automatisiert zu extrahieren bzw. Text eigenständig zu interpretieren, wird die Zukunft zeigen“, so Halling abschließend.