5 FAIR, CARE und LOUD

Bereits beim Beginn eines Projekts, sei es eine Proseminararbeit oder ein kollaboratives Großprojekt, sollten Fragen nach Sicherung, Austauschbarkeit und Nachnutzbarkeit von Forschungsdaten gestellt werden. Denn oftmals enden Projekte, ohne dass erstellte Daten für anschließende Forschungen verfügbar gemacht werden, sei es, weil nicht rechtzeitig nach Lösungen zur langfristigen Speicherung gesucht wurde, sei es, weil Daten in einer Form erhoben und gespeichert wurden, die eine Nachnutzung erschwert oder auch unmöglich macht. Spätestens beim ersten Gang ins Archiv – sei es analog oder digital –, bei dem Sie Quellen transkribieren, werden Sie sich vermutlich fragen, ob das nicht entweder schon von einer anderen Person erledigt wurde und Sie sich die Arbeit sparen könnten, oder aber ob Sie in Zukunft anderen die von Ihnen erstellten Transkriptionen zur Verfügung stellen wollen. Die Frage ist nur, wo und wie.

Zu Beginn des Studiums sind solche Überlegungen wohl noch nicht zentral; dennoch sollen einige Fragen rund um Speicherung, Aufbewahrung und Nachnutzbarkeit von Daten/Datenformaten hier kurz thematisiert werden, um dafür zu sensibilisieren; auch, weil sie den Prozess der Datenerhebung beeinflussen.

5.1 FAIRe Daten

Die Prinzipien FAIRer Daten wurden 2016 von einem Konsortium aus Wissenschaftler:innen und Organisationen wie folgt definiert:¹ Findability, Accessibility, Interoperability, Reuse of digital assets.

Daten sollen also auffindbar und zugänglich sein, zudem interoperabel, also mit verschiedenen Systemen nutzbar, und wiederverwendbar. Wenn Sie für eine Proseminararbeit zehn Testamente aus dem 18. Jahrhundert im Staatsarchiv Basel fotografieren, anschließend transkribieren, die vererbten Gegenstände identifizieren, zwischen den Erblasser:innen vergleichen und Ihre Ergebnisse ausgedruckt bei dem:r Dozierenden einreichen, sind Ihre Daten das genaue Gegenteil: Niemand weiß, dass Sie die Daten erhoben haben, sie sind über gängige Suchmethoden nicht auffindbar und nur über persönliche Kontakte zugänglich; und wenn Ihr:e Dozent:in Ihre Ergebnisse anderen Studierenden zur Verfügung stellen will, um weitere Forschung anzuregen, geht dies nur in Form von Kopien Ihrer gedruckten Arbeit; Papierkopien sind dabei weder interoperabel noch sind Ihre Daten vernünftig wiederverwendbar – sie müssten via Abtippen erst wieder maschinenlesebar gemacht werden, um damit weiterarbeiten zu können. Wenn Sie Ihre transkribierten Texte und die identifizierten Objekte in Standardformaten und mit offener Lizenz auf einem Repositorium veröffentlichen, machen Sie nicht nur wichtige Teile Ihrer eigenen Arbeit sichtbar, sondern erleichtern so auch anschließende Forschungen.² Zudem kann so vermieden werden, dass geleistete Arbeit wie beispielsweise Transkriptionen doppelt gemacht wird.³

5.2 CARE-Prinzipien

Anschließend an die FAIR-Prinzipien wurden 2019 von der Global Indigenous Data Alliance die CARE-Prinzipien für den Umgang mit indigenen Daten formuliert:⁴ Collective Benefit, Authority to Control, Responsibility, Ethics.

Das Augenmerk liegt dabei darauf, nicht einfach offene Daten und Datenaustausch zu propagieren, sondern auch die Menschen und den Zweck zu berücksichtigen, um bestehende Machtunterschiede zwischen verschiedenen Akteur:innen nicht zu verstärken. Indigene Daten sollen dem kollektiven Nutzen dienen, ein Recht auf Kontrolle soll gegeben sein, Verantwortung für die Datennutzung übernommen und Ethische Prinzipien beachtet werden.⁵ Auch wenn diese Richtlinien speziell für die Arbeit mit indigenen Daten ausgearbeitet wurden, ergänzen sie den datenzentrierten Ansatz der FAIR-Prinzipien um eine Dimension, die den Entstehungskontext der Daten mitberücksichtigt und zur Reflexion über die (Weiter-)Arbeit mit Daten anregt.

5.3 LO(U)D

Tim Berners-Lee, der Erfinder des World Wide Web, propagierte früh die Verlinkbarkeit von standardisierten digitalen Daten und dadurch die Entstehung eines Semantic Web, in dem Daten mensch- und maschinenlesbar austauschbar sind:

The Semantic Web isn’t just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data.⁶

Um andere Daten nicht nur finden, sondern auch weiternutzen und kombinieren zu können, wurden auch für Linked Open Data Prinzipien formuliert, die bei der Erstellung bzw. Veröffentlichung von Daten beachtet werden sollten; bekannte Beispiele für LOD-Datensätze sind Wikibase, Wikidata oder GeoNames.

Berners-Lee hat ein Fünf-Sterne-System zur Klassifizierung offener Datensätze vorgeschlagen, wobei 5 Sterne Linked Open Data entspricht:

1 Stern: Ein Datensatz ist offen verfügbar, in einem beliebigen Format, etwa als PDF-Datei.
2 Sterne: Ein Datensatz ist offen verfügbar in einem strukturierten Format, etwa im Dateiformat von Microsoft Excel (.xls).
3 Sterne: Ein Datensatz ist offen verfügbar in einem nicht-proprietären strukturierten Format, etwa als Comma-separated values (.csv).
4 Sterne: Ein Datensatz folgt Standards des World Wide Web Konsortiums (W3C), wie die Nutzung des Resource Description Frameworks (RDF) und die Vergabe von Uniform Resource Identifiern (URIs).
5 Sterne: Ein Datensatz erfüllt alle obigen Bedingungen und enthält zudem Links zu anderer Linked Open Data.

Über das Fünf-Sterne-System hinaus wurden Grundsätze für Linked Open Usable Data entwickelt, die darauf abzielen, Daten nicht nur in offener und verlinkter Form zur Verfügung zu stellen, sondern sie auch verständlich zu strukturieren und zu dokumentieren, um ihre Nutzbarkeit zu verbessern.

Über Dinge wie das W3C, RDF und URIs müssen Sie sich im Verlauf Ihres Studiums vermutlich keine Gedanken machen, aber behalten Sie im Auge, dass Ihre Forschung(sdaten) sichtbarer und nachhaltig nachnutzbarer sind, wenn Sie nicht bereits bei der Erstellung einer Datei ein Format wählen, das nur auf einem bestimmten Betriebssystem läuft oder den Erwerb eines kostenpflichtigen Programms erfordert.

Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan u. a.: The FAIR Guiding Principles for scientific data management and stewardship, in: Scientific Data 3 (1), 03.2016, S. 160018. Online: <https://doi.org/10.1038/sdata.2016.18>, Stand: 09.11.2022.↩︎
Zu verschiedenen Repositorien, also digitalen Speicherorten für Daten, vgl. das Unterkapitel Kapitel 4.4.↩︎
Die Plattform transcriptiones ermöglicht niederschwelliges Teilen von Transkriptionen historischer Dokumente.↩︎
Carroll, Stephanie Russo; Garba, Ibrahim; Figueroa-Rodríguez, Oscar L. u. a.: The CARE Principles for Indigenous Data Governance, in: Data Science Journal 19, 11.2020, S. 43. Online: <https://doi.org/10.5334/dsj-2020-043>, Stand: 28.11.2022.↩︎
Eine auf deutsch übersetzte Fassung der CARE-Prinzipien findet sich hier.↩︎
Tim Berners-Lee: Linked Data, 2009. Online: https://www.w3.org/DesignIssues/LinkedData.html.↩︎