Artikel für iRights.info: „Wieso Forschungsdatenmanagement künftig zum wissenschaftlichen Alltag gehört“

University of Michigan, DNA Lab, CC BY-2.0

Ich schreibe jetzt für iRights.info über Open Science, Open Access, Forschungsdatenmanagement und CreativeCommons-Lizenzen. Die Plattform informiert seit 2005 über Urheberrecht und kreatives Schaffen in der digitalen Welt. Bereits 2006 wurde sie mit dem Grimme Online Award ausgezeichnet, weitere Preise folgten.

Mein erster Artikel ist eine Einführung ins Forschungsdatenmanagement, das künftig ein fester Bestandteil wissenschaftlichen Arbeitens sein wird – von der Meteorologie bis zur Literaturwissenschaft. Alle Texte auf iRights.info stehen unter einer Creative-Commons-Lizenz und können daher wiederveröffentlicht werden. Das tue ich hier:

 

Daten sammeln, auswerten und sie der wissenschaftlichen Gemeinschaft verfügbar machen – das gehört zum Alltag vieler Forscher*innen. Je mehr und unterschiedliche Daten dabei zusammen kommen, desto notwendiger wird ein sorgsamer Umgang mit ihnen. Christoph Hornung über Grundlagen und Potentiale des Forschungsdatenmanagements.

Wissenschaftliches Arbeiten bedeutet in vielen Disziplinen, Daten zu erheben, zu beschreiben und auszuwerten. Nicht nur beim Erheben von Messergebnissen (wie etwa zur Analyse der Erderwärmung mittels Klimadaten) entstehen Daten, sondern auch in traditionell weniger datenaffinen Fächern wie den Geisteswissenschaften: Sprachaufnahmen und deren Transkriptionen sowie Annotationen zu Texten oder Abbildungen werden heute meist elektronisch erstellt und gespeichert.Forschungsförderer verlangen heute zunehmend, Forschungsdaten aufzubewahren und zu veröffentlichen. Sie forcieren damit eine umfassende Dokumentation der Forschungsarbeit und die Nutzbarmachung der generierten Daten für andere Forschende. Dafür müssen die Daten auffindbar, zugänglich, lesbar und wiederverwendbar sein. Für diese Praxis hat sich die Bezeichnung „Forschungsdatenmanagement“ etabliert.Dabei stellen sich einige Fragen: Um welche Arten von Daten geht es bei „Forschungsdaten“? Wo ist eine Publikation möglich und sinnvoll? Wieso werden Forschungsergebnisse durch veröffentlichte Forschungsdaten leichter überprüfbar? Wie lassen sich Forschungsdaten zitieren und in welchen Fällen ist die Vergabe einer Creative-Commons-Lizenz sinnvoll? Wo gibt es Unterstützung bei der Umsetzung dieser Schritte?

 

Was der Begriff „Forschungsdaten“ in der Wissenschaft bedeutet

Welche Arten von Forschungsdaten es gibt, lässt sich aus der gängigen Definition des Informationsportals forschungsdaten.info ableiten:

Forschungsdaten sind (digitale) Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse.

Die Wissenschaft ist dabei sehr vielfältig: Je nach Disziplin und Forschungsansatz fallen beim Forschen, Sammeln und Analysieren unterschiedliche Datentypen an. In den Kultur- und Geisteswissenschaften etwa Annotationen und Kommentare beispielsweise zu Installationen und Ausstellungskatalogen, in der Archäologie unter anderem Analyseergebnisse von Gesteinsproben. Bei Historiker*innen sind Kommentare zu historischen Quellen typisch. Und die Sozial- und Wirtschaftswissenschaften arbeiten viel mit Interview-, Umfrage- oder anderen statistischen Daten.

So unterschiedlich wie die Untersuchungsmethoden sind auch die Charakteristika und Formate der dabei entstehenden Forschungsdaten. Es gilt, sie adäquat aufzubewahren, überprüfbar und nachnutzbar zu machen.

 

Forschungsdatenmanagement auch bei Beantragung von Drittmitteln relevant

Die Rahmenbedingungen wissenschaftlicher Tätigkeit befinden sich im Wandel. Die Deutsche Forschungsgemeinschaft (DFG) spielt dabei eine besondere Rolle: Als größte deutsche Forschungsförderin finanziert die DFG nicht nur zahlreiche Drittmittelprojekte, sondern übt mit ihrem 2019 veröffentlichten Kodex zur guten wissenschaftlichen Praxis maßgeblich Einfluss auf Forschung in Deutschland aus.

Um Zugang zu DFG-Mitteln zu haben, müssen Hochschulen und Universitäten den Kodex verpflichtend einhalten. Dort gibt die DFG als Leitlinie vor (hier S. 18): „Grundsätzlich bringen Wissenschaftlerinnen und Wissenschaftler alle Ergebnisse in den wissenschaftlichen Diskurs ein.“ Auch eingesetzte Softwares, zugrundeliegende Materialien und auch Forschungsdaten sollen nach dem Willen der DFG verfügbar gemacht werden.

Grenzen ergeben sich dabei aus dem Datenschutz, den Persönlichkeitsrechten und möglichen Rechten Dritter an den Daten, wie Till Kreutzer und Henning Lahmann hier ausführen. Abseits rechtlicher Gründe gegen eine Veröffentlichung nennt die DFG auch Gepflogenheiten des Fachbereichs und die sehr weichen Kriterien „Angemessenheit“, „Erforderlichkeit“ und „Zumutbarkeit“, die im Einzelfall zu beurteilen sind. Der österreichische Fonds zur Förderung der wissenschaftlichen Forschung (FWF) nennt zudem ethische Gründe.

Will eine Wissenschaftlerin Drittmittel für ein Forschungsprojekt zum Klimawandel oder auch zum Goethe-Bild in den Informationstexten aktueller Werksausgaben einwerben, so empfiehlt ihr die DFG bereits für die Beantragung, die im Projekt entstehenden Daten zu skizzieren. Beim österreichischen FWF ist es sogar verpflichtend, einen ausformulierten Datenmanagementplan mit dem Antrag einzureichen, ebenso im Förderprogramm Horizon Europe. Der Schweizerische Nationalfonds (SNF) verlangt dies in den meisten Förderrichtlinien am Ende des Projekts. Einen Überblick über die Anforderungen der Europäischen Union und anderer Forschungsförderer bietet forschungsdaten.info.

 

Repositorien: Wann und wo sich Daten veröffentlichen lassen

Die Veröffentlichung von Forschungsdaten ist eine entscheidende Aktivität im Forschungsdatenmanagement. Sie steht aber nicht für sich allein, sondern ist mit einer ganzen Reihe entscheidender Phasen verbunden, in denen ein gezieltes Managen der Daten relevant ist. Um diese zu veranschaulichen, hat sich der sogenannte „Datenlebenszyklus“ etabliert. Die Infografik beschreibt den Ablauf eines Forschungsprojekts anhand der relevanten Schritte des Forschungsdatenmanagements:

Datenlebenszyklus (Forschungsdatenmanagement) Christoph Hornung (CC BY)

Für die geplante Analyse von Klimaveränderungen respektive von Werksbeschreibungen fällt ein strukturierter Umgang mit den Daten bereits bei der Konzeption und Beantragung des Forschungsprojekts an. Auch bei ihrer Erhebung, Aufbereitung und Analyse sowie ihrer Publikation und Archivierung bis hin zur möglichen Nachnutzung ist er angezeigt.

Universitäten, Bibliotheken und andere Bildungseinrichtungen bieten Plattformen für die Speicherung und Veröffentlichung von Forschungsdaten an. Diese sogenannten Repositorien stellen digitale Objekte bereit und sorgen für ihre Langzeitverfügbarkeit. Sie werden von allgemeinen Suchmaschinen wie Google sowie von übergeordneten fachlichen Suchinstrumenten wie Base Search und re3data erfasst. Und sie vergeben persistente Identifikatoren wie die DOI, die wie digitale Pendants zur ISBN funktionieren: Jeder Datensatz erhält so eine individuelle Kennung.

Spezielle überregionale Repositorien konzentrieren sich auf einzelne Fachgebiete. Sie unterscheiden sich beispielsweise in Form und Format der Daten. Aber auch, wie die einzelnen wissenschaftlichen Disziplinen sie wahrnehmen. So ist das TextGrid Repository auf Text- und Bilddaten ausgerichtet, das Repositorium PANGAEA auf Daten der Klimaforschung. Zudem existieren übergreifende Angebote wie das europäische Universal-Repositorium Zenodo. Zur Beschreibung veröffentlichter Daten gibt es Data Journals, die auf die Publikationen in Repositorien verlinken. Welche Publikationen für welches Fachgebiet existieren, stellt diese Übersicht der Universität Würzburg dar.

 

FAIR-Prinzipien, Open Science und Robustheit der Daten

Um Forschungsdaten auf ihre Robustheit zu überprüfen und für weitere Forschungen zu verwenden, ist es nötig, sie für Menschen und Maschinen lesbar zu machen und entsprechend aufzubereiten. Das kann Vorteile bringen: Solide Daten, die nicht nur valide erhoben wurden, sondern auch entsprechend aufbereitet, beschrieben und bereitgestellt sind, müssen im besten Falle nicht neu erhoben werden. Neue Messungen oder Zusammenstellungen von Werksbeschreibungen fallen dann weg.

Um dies sicherzustellen, haben sich die so genannten FAIR-Prinzipien durchgesetzt, die von den großen Forschungsförderern empfohlen oder sogar gefordert werden. Das Akronym steht für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar).

FAIR-Prinzipien, CC BY-SA-4.0.

Die FAIR-Prinzipien werden häufig im Sinne von Openness bzw. Open Science umgesetzt, also einer direkten und freien Zugänglichkeit und Verwendbarkeit ohne technische oder rechtliche Barrieren. Die Zugänglichkeit kann nach den FAIR-Prinzipien allerdings auch anders als durch die direkte und öffentliche Bereitstellung in einem Repositorium gewährleistet werden. Im Extremfall kann auch eine Telefonnummer angegeben werden, über die sich der Zugang zu den Daten arrangieren lässt. Auch dies würde theoretisch einer Verpflichtung zur Einhaltung der FAIR-Prinzipien genügen.

 

PID, URN, DOI: Forschungsdaten zitierbar machen

Als digitales Pendant zur ISBN dienen Persistente Identifikatoren (PIDs) dazu, ein digitales Objekt eindeutig zu identifizieren. PIDs werden in der Regel beim Hochladen im Repositorium automatisch vergeben. Die häufigsten Typen sind DOI (Digital Object Identifier), URN (Uniform Resource Name) und hdl (Handle). Da sie ortsunabhängig sind, können sie – im Gegensatz zur URL – auch ohne Datumsangabe zitiert werden:

Grillparzer, Franz: „Goethe.“ TextGrid Repository (2012). hdl.handle.net/11858/00-1734-0000-0002-ED46-1

Der Link hinter der PID, der zur aktuellen URL führt, wird von der vergebenden Institution auch im Falle von Serverumzügen aktuell gehalten.

 

Schutzfähigkeit und Nutzungsrechte an Forschungsdaten

Reine Daten im Sinne von Fakten und Informationen sind nicht urheberrechtlich geschützt. In solchen Fällen muss eine Nachnutzung nicht gesondert gestattet werden. Der freie Status der Daten kann aber durch eine Public-Domain-Erklärung wie CC0 verdeutlicht werden.

Bei angereicherten Datensätzen jedoch kann eine Schöpfungshöhe und damit eine Schutzfähigkeit entstehen:

Versteht man unter „Daten“ allerdings Inhalte, wie zum Beispiel Datensätze, die Bilder oder Beschreibungen in Prosa enthalten und damit über reine Informationen hinausgehen, können wiederum Schutzrechte bestehen. (Kreutzer/Lahmann)

Das können etwa graphische Veranschaulichungen wie Diagramme, Beschreibungen eines Digitalisats oder Zusammenfassungen eines Romans sein. In derartigen Fällen können die Nutzungsrechte durch die Vergabe einer Lizenz beim Veröffentlichen in einem Repositorium eindeutig festgelegt werden. Dabei helfen die vorgefertigten Lizenzverträge von Creative Commons (CC): Urheber*innen können mit den CC-Lizenzen die Nutzungsarten definieren und dafür die Rechte einräumen.

 

Forschungdaten unter Creative-Commons-Lizenz freigeben

Am weitesten verbreitet in der Forschung ist die Lizenz CC BY. Mit ihr gekennzeichnete Inhalte dürfen genutzt, kopiert und bearbeitet werden, solange Quelle und Urheber der Daten genannt werden. Sie stellt sicher, dass vorhandene Daten auch für neue Forschungen umfänglich genutzt werden dürfen. Weitere Informationen gibt es bei iRights.info beispielsweise im CC-Dossier oder den CC-FAQs.

Rechtliche Fragen stellen sich außerdem in Bezug auf Datenschutz- und Persönlichkeitsrechte. Insbesondere bei der Veröffentlichung personenbezogener Daten können sich Einschränkungen ergeben. Anonymisierungen sind etwa bei Melde- und Mailadressen angezeigt, bei Telefonnummern, Geburtstagen, Geburtsort, Alter, körperlichen Merkmalen, Kennzeichen, genetischen Daten, politischen Einstellungen oder bei Daten aus Befragungen zu Konsumgewohnheiten. Ausführliche Informationen dazu bietet der Leitfaden zu Rechtsfragen bei Open Science.

Komplexere rechtliche Fragestellungen ergeben sich auch, wenn ein Forschungsprojekt mit fremden Daten arbeitet und diese im Rahmen eigener Datenveröffentlichung enthalten sind. So ist darauf zu achten, dass man eine CC-Lizenz nicht auf freie Daten oder schutzfähige fremde Daten vergibt.

 

Forschungsdatenmanagement auch für Gedächtnisinstitutionen?

Auch Gedächtnisinstitutionen wie Bibliotheken, Archive und Museen müssen zwangsläufig einen Umgang mit Datenveröffentlichungen finden. Denn die Bücher, Dokumente, Schriftstücke, Gemälde und Urkunden, die sie beherbergen, werden auf die oben skizzierte Weise beforscht und sind deshalb von Fragen der Nutzung und Publikation betroffen.

Beispielsweise können sich Fragen stellen, bei welchen Einsatzarten Nutzungsrechte einzuholen sind und inwiefern mit CC-Lizenzen gearbeitet werden können. Auch die Nutzung von Katalogdaten ist hier immer wieder von Belang. Zwar ist es fraglich, ob hier Schutzrechte bestehen. Institutionen können sich positionieren, indem sie diese per CC0-Lizenz freigeben.

 

Weiterführende Informationen und Unterstützungsangebote

Das Thema Forschungsdatenmanagement gewinnt an Relevanz, neue Unterstützungsangebote für Forschende entstehen. Ein breit angelegtes Programm aus Mitteln der Deutschen Forschungsgemeinschaft (DFG) ist die Nationale Forschungsdateninfrastruktur (NFDI). In verschiedenen Konsortien werden dabei fachgruppenspezifische Angebote geschaffen.

Wer mit einer noch spezifischeren Ausrichtung der Angebote auf das eigene Fach arbeiten möchte, wird häufig auch beim zuständigen Fachinformationsdienst fündig. Hilfreich sind auch die fachspezifischen Informationsseiten auf forschungsdaten.info. Auch die Länder haben Initiativen gegründet, viele Institutionen haben ein Referat für Forschungsdatenmanagement eingerichtet. Gelegentlich gibt es Angebote für spezifische Workshops.

 

Zur Originalveröffentlichung: https://irights.info/artikel/forschungsdatenmanagement/31789

Der Text steht unter der Creative Commons Namensnennung 4.0 International Lizenz

 

Abbildungen: