Aktuelles, Experten, Studien - geschrieben von dp am Mittwoch, November 2, 2022 16:18 - noch keine Kommentare

Maschinelles Lernen: Subtile Fallstricke für die Cyber-Sicherheitsforschung

Tags: Cyber, Daniel Arp, Forschung, ML, Sicherheit, TU Berlin

Probleme bei der Anwendung von ML-Methoden in der Cyber-Sicherheit durch Notwendigkeit im feindlichen Kontext zu arbeiten noch verschärft

[datensicherheit.de, 02.11.2022] Die Cyber-Sicherheit ist ganz offensichtlich ein zentrales Thema der digitalen Gesellschaft und spielt sowohl im kommerziellen wie auch privaten Kontext zunehmend eine wesentliche Rolle. Sogenanntes Maschinelles Lernen (ML) hat sich laut einer aktuellen Meldung der Technischen Universität Berlin (TUB) in diesem Zusammenhang in den letzten Jahren als eines der wichtigsten Werkzeuge zur Analyse sicherheitsrelevanter Probleme herauskristallisiert. Demnach konnte eine Gruppe europäischer Forscher der TU Berlin, der TU Braunschweig, des University College London, des King’s College London, der Royal Holloway University of London und des Karlsruher Instituts für Technologie (KIT) / „KASTEL Security Research Labs“ unter der Leitung von „BIFOLD“-Forschern der TU Berlin jedoch zeigen, dass diese Art der Forschung oft fehleranfällig ist. Ihre diesbezügliche Publikation: „Dos and Don’ts of Machine Learning in Computer Security“ über Fallstricke bei der ML-Anwendung in der Sicherheitsforschung wurde auf dem renommierten „USENIX Security Symposium 2022“ mit einem „Distinguished Paper Award“ ausgezeichnet. Die Probleme bei der Anwendung von ML-Methoden in der Cyber-Sicherheit würden durch die Notwendigkeit, in einem feindlichen Kontext zu arbeiten, noch verschärft. Mit ihrer Veröffentlichung hoffen die Forscher nach eigenen Angaben, „das Bewusstsein für potenzielle Fehlerquellen im experimentellen Design zu schärfen und diese wenn möglich zu verhindern“.

ML-Erfolg wirkt sich auch auf Cyber-Sicherheit aus

ML habe in einer Vielzahl von Anwendungsbereichen, wie zum Beispiel der Bilderkennung und der Verarbeitung natürlicher Sprache, zu großen Durchbrüchen geführt. Dieser Erfolg wirke sich auch auf die Cyber-Sicherheit aus: Nicht nur kommerzielle Anbieter würden damit werben, dass ihre von Künstlicher Intelligenz (KI) gesteuerten Produkte effizienter und effektiver als bisherige Lösungen seien – auch viele Forscher setzten diese Technik ein, da Algorithmen den traditionellen Methoden oft weit überlegen zu sein schienen. So werde ML zum Beispiel auch eingesetzt, um neue digitale Angriffstaktiken zu erlernen und die Abwehrmaßnahmen an diese Bedrohungen anzupassen.

„In dem Paper liefern wir eine kritische Analyse des Einsatzes von ML in der Cyber-Sicherheitsforschung“, berichtet Erstautor Dr. Daniel Arp, „Postdoc“ an der TU Berlin: „Zunächst identifizieren wir häufige Fallstricke bei der Konzeption, Implementierung und Evaluierung von lernbasierten Sicherheitssystemen.“ Ein Beispiel für solche Probleme sei die Verwendung nicht repräsentativer Daten – also von Datensätzen, bei denen die Anzahl der Angriffe im Vergleich zu ihrer Häufigkeit in der Realität überrepräsentiert sei. Mit solchen Daten trainierte ML-Modelle könnten sich in der Praxis als unbrauchbar erweisen. Im schlimmsten Fall könnte sich sogar herausstellen, dass sie außerhalb einer experimentellen Umgebung gar nicht funktionieren oder zu Fehlinterpretationen führten.

Fallstricke selbst in sorgfältig durchgeführter Cyber-Spitzenforschung weit verbreitet

In einem zweiten Schritt hätten die Forscher eine Prävalenzanalyse auf der Grundlage der identifizierten Probleme durchgeführt, bei der sie 30 Beiträge hochrangiger Sicherheitskonferenzen – veröffentlicht zwischen 2010 und 2020 – untersucht hätten. „Zu unserer Besorgnis mussten wir feststellen, dass diese Fallstricke selbst in sorgfältig durchgeführter Spitzenforschung weit verbreitet sind“, so „BIFOLD Fellow“ Prof. Dr. Konrad Rieck von der TU Braunschweig.

Auch wenn diese Ergebnisse bereits ein alarmierendes Signal gewesen seien – die möglichen Folgen seien zunächst unklar gewesen. In einem dritten Schritt hätten die Forscher daher anhand von vier konkreten Fallstudien mit Beispielen aus der Literatur gezeigt, wie und wo diese identifizierten Probleme zu unrealistischen Ergebnissen und Interpretationen von ML-Systemen führen würden.

Moderne Cybersecurity-Ansätze tendieren dazu, sich bei der Erkennung von Schadsoftware auf Merkmale aus der Quelle der App zu konzentrieren

Eine der untersuchten Fallstudien habe sich mit der Erkennung mobiler Schadsoftware, sogenannter Malware, beschäftigt. Aufgrund der großen Anzahl neuer gefährlicher Software für mobile Geräte hätten herkömmliche Antiviren-Scanner oft Probleme, mit der Schadsoftware Schritt zu halten und böten nur eine schlechte Erkennungsleistung. Um dieses Problem in den Griff zu bekommen, hätten Forscher lernbasierte Methoden vorgeschlagen und entwickelt, um sich automatisch an neue Malware-Varianten anpassen zu können.

„Leider wurde die Leistung der lernbasierten Systeme in vielen Fällen überschätzt“, erläutert Dr. Arp. Da es keine öffentlich zugänglichen Lern-Datensätze von Unternehmen gebe, hätten Forscher meist eigene Datensätze genutzt und dazu verschiedene Quellen zusammengeführt. „Diese Zusammenführung der Lern-Datensätze aus verschiedenen Quellen führt jedoch zu einer Verzerrung der Stichprobe: Apps aus den offiziellen ,App Stores’ der Smartphone-Hersteller bergen tendenziell weniger Sicherheitsrisiken als Apps, die aus alternativen Quellen mit geringeren Sicherheitsstandards stammen.“ Im Ergebnis habe gezeigt werden können, dass moderne Cybersecurity-Ansätze dazu neigten, „sich bei der Erkennung von Schadsoftware auf Merkmale zu konzentrieren, die auf die Quelle der App zurückzuführen sind, anstatt reale Malware-Merkmale zu identifizieren“. Dies sei nur eines von vielen Beispielen des Papiers, welche zeigen, „wie ein kleiner Fehler bei der Zusammenstellung der Lern-Datensätze, schwerwiegende Verzerrungen im Ergebnis herbeiführt und das gesamte Experiment beeinflussen kann“.

Weitere Informationen zum Thema:

USENIX
Dos and Don’ts of Machine Learning in Computer Security

Aktuelles, Experten, Studien - geschrieben von dp am Mittwoch, November 2, 2022 16:18 - noch keine Kommentare

Maschinelles Lernen: Subtile Fallstricke für die Cyber-Sicherheitsforschung

ML-Erfolg wirkt sich auch auf Cyber-Sicherheit aus

Fallstricke selbst in sorgfältig durchgeführter Cyber-Spitzenforschung weit verbreitet

Moderne Cybersecurity-Ansätze tendieren dazu, sich bei der Erkennung von Schadsoftware auf Merkmale aus der Quelle der App zu konzentrieren

Kommentieren

Kooperation

Mitgliedschaft

Mitgliedschaft

Multiplikator

Aktuelles, Experten, Studien - Apr. 1, 2025 13:23 - noch keine Kommentare

14. Deutscher Seniorentag 2025: DsiN-Forderung nach Stärkung Digitaler Teilhabe

weitere Beiträge in Experten

Aktuelles, Branche, Studien - Apr. 1, 2025 13:39 - noch keine Kommentare

Nur 4 Länder verbesserten sich 2024: Europas Datenschutz weiter im Krisenmodus

weitere Beiträge in Branche

Branche, Umfragen - Dez. 21, 2020 21:46 - noch keine Kommentare

Threat Hunting: Bedeutung und Wertschätzung steigt

weitere Beiträge in Service