Suchen
Publizieren
Forschungsdatenmanagement
Datenverwaltung – Von der Organisation bis zur Archivierung
Datenorganisation
Die in einem Projekt erhobenen Daten sollten Sie von Beginn an übersichtlich organisieren. Eine strukturierte Datensammlung hilft Ihnen und dem Forscherteam zu jeder Zeit im Projektverlauf, die Daten einfach und schnell wiederzufinden.
Datenablageort, Ordnerstruktur und Dateibenennung
Die Auswahl eines Datenablageortes ist abhängig von den Erfordernissen des Projektes. Dabei sollten Fragen hinsichtlich Speicherkapazität, Sicherheitsstandards und Zugriffsverwaltung eine Rolle spielen. Um Übersichtlichkeit zu gewährleisten, sollten die Daten über eine hierarchische Ordnerstruktur verwaltet werden, wobei Einzelordner nicht zu viele Dateien enthalten sollten. Ferner ist eine klare und strukturierte Dateibenennung wichtig. Zur gleichzeitigen Umbenennung von mehreren Dateien gibt es verschiedene Softwareprogramme, z.B. Ant Renamer oder GNOME Commander. Bei der Namensvergabe ist ein Gleichgewicht zwischen einer inhaltsspezifischen Bezeichnung und der Länge des Dateinamens zu finden. Die Zugriffsrechte zum Ablageort sowie der Aufbau der Ordnerstruktur und die Konventionen für die Dateibenennung sind vor Projektbeginn unter aller Projektmitgliedern abzustimmen.
Versionskontrolle bzw. Versionierung
Bei der Versionierung werden die Veränderungen einer Datei über die Projektzeitlauf hinweg protokolliert. Dies kann in einer extra Datei im selben Ordner, in einer übergeordneten ReadMe-Datei oder direkt als Teil des Dateinamens erfolgen. Die Datensätze/Dateien sollten sequentiell nummeriert werden. Neben der Versionsnummer sollte auch das Speicherdatum in der Form YYYYMMDD eingebunden werden. Für die Softwareentwicklung gibt es eigenständige Programme zur Versionskontrolle. Zum Beispiel unterstützt das URZ der TU Chemnitz den Dienst Gitlab, wodurch die Versionskontrolle mittels Git möglich ist.
Weiterführende Informationen zur Datenorganisation
Datendokumentation
Für eine leichtere Zusammenarbeit im Projekt sowie eine spätere Nachnutzung sollten Sie die Daten hinreichend dokumentieren.
Dokumentation durch Beschreibung
Damit Projektpartner, Dritte oder auch man selbst zu einem späteren Zeitpunkt die Daten eines Forschungsvorhabens nachvollziehen kann, sollten alle Schritte im Zusammenhang mit der Erstellung und Bearbeitung der Daten nachvollziehbar dokumentiert werden. Dazu kann z.B. eine übergeordneten ReadMe-Datei verwendet werden oder die Dokumentation erfolgt direkt in der Datei (z.B. bei Softwareprojekten). Die Dokumentation sollte dabei so genau sein, dass die Daten jederzeit unter Verwendung der angegebenen Schritte erneut erstellt werden können bzw. es nachvollziehbar ist, warum und wie die Daten im Nachhinein angepasst wurden. Wenn außerhalb der Datei dokumentiert wird, dann sollte ein möglichst offenes Format (z.B. .txt) verwendet werden.
Metadaten
Neben einer menschenlesbaren Dokumentation sollte auch eine maschinenlesebare Dokumentation in Form von strukturierten Metadaten erfolgen. Metadaten beschreiben bestimmte Merkmal von Daten, z.B. Titel der Datei, Name des Primärforschers/Urhebers, Projektnummer, Zeitraum und Ort der Datenerhebung usw. Dabei gibt es unterschiedliche Arten von Metadaten (z.B. inhaltlich, technisch, administrativ) und verschiedene Standards je nach Wissenschaftsdisziplin bzw. Projektanforderungen. Durch die Verwendung eines einheitlichen Metadatenstandards innerhalb eines Projektes bzw. innerhalb einer Forschungsdisziplin ist die Verknüpfung und gemeinsame Bearbeitung von unterschiedlichen Daten möglich. Es gibt auch fächerübergreifende Standards wie z.B. den Dublin Core (Darstellung in XML/RDF möglich).
Elektronische Laborbücher
Die einzelnen Schritte eines Experiments können auch digital unter Verwendung eines Elektronischen Laborbuchs (engl. Electronic Lab Notebook, kurz ELN) dokumentiert werden. Auf diese Weise sind ELNs eine Alternative zu analogen Laborbüchern. Im Gegensatz zur Papierform sind digitale Laborbücher leichter durchsuchbar, ermöglichen eine einheitliche Ablage von Daten und können überall eingesehen werden. Zur Auswahl einer passenden ELN-Software kann der Webdienst ELN Finder genutzt werden.
Weiterführende Informationen zur Datendokumentation
Datenspeicherung
Die Auswahl von geeigneten Speichermedien sowie die regelmäßige Anfertigung von Backups helfen Ihnen ihre Daten während der Projektlaufzeit zu sichern.
Speichermedien und -orte
Bei der Datenspeicherung müssen zwei Hauptpunkte beachtet werden. Zu Einem muss entschieden werden auf welchen Geräten (PC, Laptop, USB-Stick) die Daten gesichert werden können, dabei spielen die Speicherkapazität, die Lebensdauer, die Zugriffsmöglichkeiten und viele weitere Punkte eine Rolle. Zu Anderem ist der physische Ort für die Aufbewahrung wichtig, d.h. erfolgt die Speicherung nur lokal am Arbeitsplatz oder ist auch eine Zugriff von zu Hause oder Unterwegs auf die Daten möglich. Durch eine geeignete Auswahl sollen die Daten vor Verlust sowie unberechtigten Manipulationen und Zugriffen geschützt werden. Auf institutioneller Ebene bietet das URZ der TU Chemnitz verschiedene Speicherdienste für Ihr Forschungsvorhaben an.
Backup und Datensicherheit
Durch regelmäßige Backups können die Gefahren von Datenverlusten minimiert werden. Eine geeignete Backup-Strategie sollte mindestens die beiden folgende Fragen beantworten. Welche Daten sollen auf jeden Fall gesichert werden? Wie oft werden Sicherheitskopien angelegt? Darüber hinaus ist die 3-2-1 Backupregel eine gute Orientierung, d.h. mindestens 3 Kopien, an mindestens 2 verschiedenen Orten und einer davon dezentral. An der TU Chemnitz unterstützt das URZ die Sicherung von Daten mittels des Backup-Dienstes BAREOS. Neben dem Datenverlust sollten die Daten auch vor unberechtigten Zugriffen geschützt werden. Dabei spielt die Verschlüsselung von Dateien und Verzeichnissen eine wichtige Rolle, wofür wiederum geeignete Passwörter zu nutzen sind. Ferner sind personenbezogenen Daten zusätzlich noch zu anonymisieren.
Weiterführende Informationen zur Datenspeicherung
- Forschungsdaten.info: Speichern und Rechnen
- Forschungsdaten-bildung.de: Datensicherheit und Datensicherung
Datenarchivierung
Nach dem Projektende sollten Sie endgültige Versionen ihrer Daten auswählen und zur langfristigen Nachnutzung bereitstellen. Die Daten sollten leicht auffindbar und zugänglich sein, wobei die gute wissenschaftliche Praxis eine Archivierung von mindestens 10 Jahren empfiehlt.
Auswahl von Daten
Bevor Daten in einem Langzeitarchiv oder einem Repositorium (Sonderform eines Archivs) abgelegt werden können, muss eine Auswahl getroffen werden, da zu Einem die Speicherkapazitäten von Archiven begrenzt sind und zum Anderen z.B. in Abhängigkeit von Speichervolumen Kosten für die Archivierung anfallen können. Neben Kriterien wie Verifizierbarkeit (Sind die Daten notwendig um Forschungsergebnisse zu verifizieren?), Bedarf (Sind die Daten auch langfristig von Interesse?) oder Kosten (Wäre eine erneute Datenerhebung unverhältnismäßig teuer?) spielt auch die Qualität der Daten eine Rolle, wobei eine hinreichende Dokumentation sowie die Bereitstellung von Metadaten zu den Daten ebenfalls eine Qualitätskriterium ist.
Persistente Identifikatoren
Unerlässlich für das dauerhafte Wiederauffinden und die Zitierbarkeit von Daten ist ein persistenter Identifikator, der einem Datensatz zugeordnet wird und stets eindeutig und direkt auf diesen verweist. Forschungsdaten bzw. digitalen Objekten werden häufig DOI zugeordnete. Für die eindeutige Identifizierung von Personen gibt es die ORCID. Über die ORCID können sich Wissenschaftler mit ihren Publikationen, Forschungsdaten und anderen Produkten des Forschungsprozesses (z.B. Software) eindeutig vernetzen.
Dateiformate
Bereits zu Beginn der Projektarbeit sollten Sie offene und langzeitstabile Dateiformate zur Abspeicherung verwenden, da sich diese für eine spätere Langzeitarchivierung eignen. Für Texte werden PDF/A, ODT oder TXT, für Tabellen CSV, ODS oder XLSX und für Bilder/Grafiken TIFF, PNG oder JPEG2000 empfohlen.