Master PSE „Digitale Forensik“ im SS 2020

Im Sommersemester 2020 bietet die Arbeitsgruppe für Biometrie und Internetsicherheit ein Master Projekt Systementwicklung im Bereich Digitale Forensik an. Die Termine und Details zur Lehrveranstaltung werden auf dieser Seite bekannt gegeben.

Folgendes Thema soll in einer Gruppe bestehend aus mehreren Studierenden bearbeitet werden: „Synthetische Erzeugung und IT-forensische Analyse von Netzwerkverkehr“. Das MPSE-Thema lässt sich in zwei Themenbereiche unterteilen: (1) Automatische Generierung von Netzwerkdaten und (2) Teilautomatisierte netzwerkforensische Auswertung der synthetisch erzeugten Daten.

Während im MPSE im Wintersemester 19/20 bereits Fortschritte bei der synthetischen Erzeugung von Netzwerkdaten erzielt wurden, liegt der Fokus im Sommersemester 2020 auf der IT-forensischen Auswertung des aufgezeichneten Netzwerkverkehrs. Das MPSE eignet sich gleichermaßen für Neueinsteiger, als auch für Kandidaten, die auf dem Modul MPSE I aufbauen möchten. Einzelne Szenarien sollen je nach Anzahl der Teilnehmer in Untergruppen bearbeitet werden.

Projektbeschreibung

Hintergrundinformation

Innerhalb der Forensik entwickelt sich auch der Bereich der digitalen Forensik ständig weiter und gewinnt zunehmend an Bedeutung. Die Komplexität neuartiger digitaler Spuren erfordert die Entwicklung und Wartung fortschrittlicher Analysetechniken. Die Wahl geeigneter forensischer Tools durch die Ermittler haben einen großen Einfluss auf die forensischen Gutachten und die Verwertbarkeit vor Gericht. Tatsächlich ist einer der wichtigsten Aspekte der verfügbaren und teils hochkomplexen forensischen Tools die gerichtliche Zulässigkeit und die Beweisqualität. Um vor einem deutschen Gericht zulässig zu sein, müssen IT-forensische (Open-Source-)Werkzeuge grundlegende Kriterien erfüllen: Tools, Techniken und Verfahren sollten zunächst ausführlich getestet werden, um das Auftreten von False Negatives oder False Positives beurteilen zu können (1). Darüber hinaus sollten die Ergebnisse überprüfbar und falsizierbar sein, um eine mögliche Fehlerquote genau spezifizieren zu können (2). Weiterhin sollte ein neues Verfahren stets in der wissenschaftlichen Community diskutiert und einem objektiven Peer-Review unterzogen werden (3). Ein wichtiges, aber sehr unscharfes Kriterium ist die Akzeptanz innerhalb der forensischen Community selbst (4) [1].

Um jedoch ein geeignetes Tool (z.B. ein Tool zur netzwerkforensischen Auswertung von pcap-Dateien) auszuwählen und zu bewerten, werden unbedingt geeignete forensische Test- und Evaluationsdatensätze benötigt. Nur mit geeigneten Datensätzen kann das Tooltesting erfolgen, wie es von Carrier [1] vorgeschlagen wurde. Die Arbeitsgruppe Computer Forensic Tool Testing (CFTT) des National Institute of Standards and Technology (NIST) ist für die Entwicklung von Testmethoden verschiedener forensischer Werkzeuge und die Erstellung gleichwertiger Testdaten zuständig [2]. Das NIST definiert zwei Hauptkriterien, um einen elektronischen Beweis als zulässig zu betrachten: Geeignete Tests damit sollten wiederholbar und reproduzierbar sein.

Eine äußerst wichtige Komponente zur Schaffung einer belastbaren Evaluation ist demnach die Erzeugung und Veröffentlichung von verlässlichen Testdaten auf denen beispielsweise Performance- und Genauigkeitsmessungen von Machine Learning Algorithmen jederzeit wiederholbar und reproduzierbar sind. Die fortschreitende Digitalisierung und Komplexität heutiger Infrastrukturen ermöglicht und erfordert jedoch die Nutzung verschiedenster Akquise- sowie Analyseverfahren. Anspruchsvolle Analysen werden längst nicht mehr nur auf einer Datenquelle gefußt, sondern erfordern die Attribution eines Angriffs anhand eines wiederkehrenden Angriffsmusters und die Korrelation verschiedener Informationen aus unterschiedlichen Datenquellen. Dass ein einziger Datensatz längst nicht mehr ausreicht um alle möglichen Arten an Angriffsmuster zu detektieren, zeigt auch das breite Spektrum bereits verfügbarer Datensätze [3]. Gerade die Fülle an existierenden Datensätzen zeigt zudem, dass bestehende Datensätze schnell veralten oder häufig zu akademisch, zu sehr simuliert und dadurch zu unrealistisch oder auch zu sehr anonymisiert sind. Außerdem besteht häufig eine Besorgnis bei der Veröffentlichung von Datensätzen in der digitalen Forensik. Viele Datensätze werden gar nicht erst veröffentlich, z.B. aufgrund von Datenschutzbedenken, fehlenden Ressourcen oder dem fehlenden Verständnis für die Wichtigkeit einer Veröffentlichung [4]. Um solche Bedenken (beispielsweise die Verletzung des Datenschutzes eines Administrators beim Mitschneiden von jeglichen Daten in einem Firmennetzwerk) aus dem Weg zu räumen und um möglichst realistische und aktuelle Datensätze zu erhalten, die sich auch wirklich für zuvor genanntes Tooltesting eignen, werden Daten typischerweise synthetisch erzeugt. In der Tat ist es bei der Datensynthese äußerst wichtig, möglichst realistische Daten zu erzeugen (beispielsweise Netzwerkverkehr mit allen gängigen Protokollen heutiger Netzwerkumgebungen gepaart mit weiteren Informationen anderer Datenquellen (z.B. Informationen aus den Apache-Logdateien)).

Datensynthese-Framework hystck

Ein möglicher Ansatz zur Synthese möglichst realitätsnaher Daten verfolgt das im Fachbereich Informatik entwickelte Framework hystck [5]. Die Abbildung zeigt die aktuelle Architektur von hystck. Das Framework versucht mittels Benutzersimulation ganze Betriebssystemabläufe und Anwendungen zu simulieren, um dadurch eine möglichst realistische Ground Truth zu erzeugen. Beispielsweise werden neben dem eigentlichen Netzwerkverkehr der gewünschten Anwendung bzw. des gewünschten Netzwerkprotokolls gleichzeitig auch viele andere digitale Spuren im Betriebssystem erzeugt (z.B. durch Systemupdates, Anti-Virus, Firewall, etc.), die aufgrund der Simulation des gesamten Betriebssystems ebenfalls im Netzwerkmitschnitt ersichtlich sind.

Ziele

Das übergeordnete Ziel in diesem MPSE ist die Erweiterung des o.g. Frameworks zur Synthese von gutartigem bzw. bösartigem Netzwerkverkehr. Die generierten Testdaten sollen im Anschluss dazu verwendet werden, teilautomatisierte netzwerkforensische Analysen durchzuführen. Das Gesamtprojekt kann beispielsweise in folgende Teilaufgaben unterteilt werden:

Recherche zentraler wissenschaftlicher Kontributionen heutiger Systeme zur netzwerkforensischen Datenauswertung.
Erarbeitung eigener Maßnahmen zur synthetischen Datengenerierung und Datenauswertung von Netzwerkverkehr.
Design, Implementierung und Dokumentation bestehender und eigener Algorithmen zur netzwerkforensischen Datenanalyse.
Synthetisierung zusätzlicher digitaler Spuren (z.B. neben den aufgezeichneten (häufig verschlüsselten) Netzwerkdaten) zur Durchführung einer realistischen post-mortem Analyse (bspw. Logdateien der verwendeten Applikation und des Betriebssystems, Paging-Files, Memory Dumps, etc.).
Untersuchung und Implementierung geeigneter Techniken zur Erkennung (bösartiger) Muster bzw. Anomalien und zur IT-forensischen Auswertung aller generierten digitaler Spuren (z.B. mittels Machine Learning).
Untersuchung und Implementierung geeigneter Techniken mittels kryptographischer Hashfunktionen zur Erkennung von Ähnlichkeiten übertragener Daten (z.B. mittels Approximate Matching).
Korrelation zwischen den unterschiedlichen, synthetisch erzeugten Daten (z.B. zwischen pcap Datei und Browser-Log).
Verwendung von Software-Engineering-Praktiken (Requirements Engineering, Erstellung geeigneter Uses Cases, Ziele, Meilensteine, Herausforderungen, etc.)

Eine mögliche Projektarbeit lässt sich beispielsweise in folgende Teilschritte gliedern: (A) Recherche, (B) Framework / Algorithmus, (C) Datensynthese und (D) IT-forensische Datenanalyse.

Treffen

Während der Treffen wird der Status des Projekts besprochen, Fragen beantwortet und (falls vorhanden) Probleme gelöst.

Obligatorische Termine

Alle Treffen werden aufgrund des präsenzfreien Sommersemesters im virtuellen Labor D14/04.03 stattfinden.
Die MPSE-Treffen finden jeden Donnerstag um 10:15 – 13:30 Uhr statt (Dauer je nach Bedarf). Zusätzlich zu den wöchentlichen Treffen, wird es mindestens 2 Zwischenpräsentationen und eine Abschlusspräsentation geben. Die genannten Termine sind nicht verbindlich.

23.04.2020 (Kick-Off)
30.04.2020 (Projektbesprechung)
14.05.2020 (Ziele, Projektmanagement, Aufgabenverteilung, Meilensteine, Challenges)
04.06.2020 (Status/Zwischenpräsentation)
09.07.2020 (Status/Zwischenpräsentation)
24.08.2020 (Präsentation und Prüfung)

Zusatztermine werden gerne nach Vereinbarung mit den Dozenten angeboten.

Kontakt für Rückfragen

Bei offenen Fragen oder Unklarheiten schreiben Sie bitte zunächst eine Email an: thomas.goebel@h-da.de.

Bewertungskriterien

Einreichung

Ein Bericht, der die Projektarbeit und die Ergebnisse dokumentiert.
Code in einem Versionskontrollsystem (https://code.fbi.h-da.de/).
Folien der mündlichen Abschluss- und Zwischenpräsentationen.

Prüfung

Findet während des letzten obligatorischen Termins statt.
Jedes Gruppenmitglied muss einen Teil der mündlichen Präsentation vortragen.
Die Dozenten werden den einzelnen Gruppenmitgliedern nach der Präsentation Fragen stellen.

Dozenten

Literatur:

[1] Carrier, Brian. Open source digital forensics tools: The legal argument. stake, 2002.

[2] "Computer Forensics Tool Testing Program (CFTT)" NIST Headquarters, 2019. CFTT.

[3] Ring, Markus, et al. "A survey of network-based intrusion detection data sets." Computers & Security (2019).

[4] Grajeda, Cinthya, Frank Breitinger, and Ibrahim Baggili. "Availability of datasets for digital forensics–and what is missing." Digital Investigation 22 (2017).

[5] Thomas Göbel, Thomas Schäfer, Julien Hachenberger, Jan Türr, and Harald Baier. "hystck: A Novel Approach to Generate Synthetic Datasets for Digital Forensics." Advances in Digital Forensics XVI (2020).