RDA-Deutschland-Treffen 2015

Potsdam, 25.-26. November 2015

Sessionabstracts

Breakout-Sessions

S1: Forschungsdaten als institutionelle Aufgabe

Immer neue Schlüsselbegriffe wie z. B. Open Science und Open Data prägen die Diskussionen, wie sich die Wissenschaft im Digitalen Zeitalter verändern wird. Wir erkennen, dass es große Veränderungen geben wird und wir müssen Rollen und Aufgaben definieren, um den Herausforderungen gerecht zu werden. Forschungsdaten und entsprechende Dienste scheinen eine Aufgabe des Gesamtcampus zu werden, auch in den Ingenieurwissenschaften spielt Datenmanagement eine immer größere Rolle und offensichtlich müssen wir auch auf Campus-Ebene mehr Zeit investieren, um Data Scientists/Librarians auszubilden. Diese Session wird Expertinnen und Experten zusammenbringen, die konkrete Vorschläge haben, wie man zu praktischen Umsetzungen kommen kann. Kurze Beiträge zu diesem Thema von Teilnehmerinnen und Teilnehmern sind willkommen.
Organisator: Jan Brase

S2: Workflows in der Wissenschaft

Die großen Datenmengen und die komplexer werdenden Relationen erfordern den Übergang zu gut dokumentierten Workflows und der Erzeugung von „Provenance“-Informationen, um von einer reproduzierbaren Wissenschaft sprechen zu können. Es gibt bereits eine ganze Reihe von Ansätzen, um Workflows in die wissenschaftliche Praxis einzuführen. Allerdings gibt es auch große Hemmnisse, die zu einem Teil in der erforderlichen wissenschaftlichen Flexibilität begründet sind oder auch am Fehlen von Expertinnen und Experten liegen, die flexiblere Konzepte umsetzen können. In dieser Session sollen die Prinzipien von Workflows behandelt und an einigen Beispielen gezeigt werden, wie man derartige Workflows implementieren kann. Die Vorteile und auch vermeintlichen Nachteile derartiger Systeme für die Wissenschaft sollen diskutiert werden. Kurze Beiträge zu diesem Thema von Teilnehmerinnen und Teilnehmern sind willkommen.
Organisatoren: Rainer Stotzka, Thorsten Trippel

S3: Komponenten und Empfehlungen für ein Infrastruktur-Ökosystem

Momentan werden eine große Anzahl von Informationsinfrastruktur-Initiativen finanziert unter dem Motto „lass viele Blumen blühen“. Diese Herangehensweise hat viele Vorteile, hat sie doch das Potential, sehr viele Wissenschaftler/-innen und IT-Expert/-innen in den verschiedenen Communities zu engagieren. Sie erlaubt uns, die verschiedenen Lösungsansätze zu vergleichen und nach den für die Zukunft geeigneten Ausschau zu halten. Die Herangehensweise hat einen großen Nachteil: sie ist sehr kostenintensiv, ermöglicht Duplizierung von Lösungen und kann so nicht zur Interoperabilität und Nachhaltigkeit führen. Ähnlich wie im frühen Internet muss also eine Phase der Konsolidierung eingeleitet werden, um die getrennte Vorgehensweise dort, wo es möglich erscheint, in Richtung auf ein Ökosystem von Infrastrukturen zu modifizieren. In der Session wird angesprochen, wie dieser Übergang bewältigt werden kann und wie wir, als Wissenschaftsgemeinschaft, zu Empfehlungen über Common Components kommen können. Kurze Beiträge zu diesem Thema von Teilnehmerinnen und Teilnehmern sind willkommen.
Organisatoren: Stefan Kindermann, Ralph Müller-Pfefferkorn, Peter Wittenburg

S4: Data Mining in verteilten Szenarien

entfällt

S5: Forschungsdatenmanagement im Bereich Aus- und Weiterbildung - was brauchen wir an Studiengängen und Ausbildungsmaßnahmen und wer setzt es wie um?

Forschungsdatenmanagement (FDM) ist in aller Munde. Stellenausschreibungen im anglo-amerikanischen Raum führen neue Stellenprofile ein wie „data scientist“, „data librarian“ oder „data curator“. Auch in Deutschland finden sich mittlerweile zahlreiche Stellenausschreibungen, die vermehrt Kompetenzprofile aus dem Bereich FDM enthalten. Aber wie können wir diese Experten ausbilden? Welche fachwissenschaftlichen, informations- und bibliothekswissenschaftlichen bzw. technologischen Kompetenzen sind erforderlich, um möglichst interdisziplinär und in verschiedenen Bereichen des FDM tätig sein zu können? Wer bildet wie aus, z. B. in Form eines Vollzeitstudiums, Aufbaustudienganges oder im Rahmen zertifizierter Summer Schools, Spezialseminare etc.? Kann dies dann auch in z. B. strukturierte Doktoranden-Programme integriert werden? Brauchen wir ein Referenz-Curriculum für FDM?
Diese Breakout-Session wird in Form einer moderierten Diskussion versuchen, die unterschiedlichsten Bedürfnisse und Vorstellungen aus den verschiedenen Hochschulen, Wissenschaftsorganisationen und Fachdisziplinen zu sammeln, zu diskutieren und im Idealfall ein erstes Grob-Konzept für ein weiteres Vorgehen zu formulieren.
Organisatorin: Heike Neuroth

Trainingskurse

Wir werden uns bemühen, qualifizierte Referentinnen und Referenten zu gewinnen. Abhängig von den gewonnenen Experten können sich die Schwerpunkte der Inhalte verschieben.

T1: PIDs in der Forschung

Es ist nunmehr eine nahezu allgemeine Übereinstimmung, dass die Verwendung von persistenten (und eindeutigen) Identifikatoren für digitale Objekte verschiedener Art (Datenobjekte, Softwareobjekte etc.) eine Verpflichtung für uns alle ist, um für die verschiedenen Aufgaben stabile Referenzen zu haben. Mit der Gründung der internationalen DONA Foundation mit Sitz in der Schweiz und deren Aufbau eines weltumspannenden Netzwerkes von primären Knoten ist ein starkes Fundament für einen stabilen Support für DOIs und andere Identifikatoren gelegt. In der Session werden Themen wie Aufbau des weltweiten Handle-Systems, Relation zwischen Standard-Handles und DOIs, Funktion von Service-Anbietern wie DataCite und EPIC, Nutzung der Angebote dieser Service-Anbieter, interessante wissenschaftliche Anwendungen von Handles/DOIs, die Verwendung von Information Types, das Generische RDA PIT API und anderes behandelt. Die Trainings-Session soll einen tiefen und umfassenden Einblick in die Basis von PIDs geben und die Verwendung anhand der Usecases „Persistent Identifiers in Seismology - the present situation of seismological datacentres“, „PIDs in der Klimakunde“ und „Persistent Identifier im Einsatz für die medizinische Forschung“ darstellen.
Organisatoren: Martin Fenner, Ulrich Schwardmann, Tobias Weigel

T2: Datenorganisation

Die Unterschiede in den Datenorganisationen und die Implizierung von Meta-Wissen über die Daten sind dafür verantwortlich, dass wir kontinuierlich weiter „Legacy“-Daten erzeugen, deren spätere Kuration viel Geld kosten wird, und dass das Zusammenfügen von Daten für Forschungszwecke sehr zeitaufwendig und mithin sehr teuer ist. Beispiele für konkrete Datenorganisationen aus verschiedenen Disziplinen werden gegeben. Ausgehend von dem in RDA ausgearbeiteten Datenmodell, das auf der Analyse von verschiedenen Anwendungsfällen basiert, werden die Vorteile einer Vereinheitlichung und einer verbesserten Explizitheit diskutiert. Eckpunkte, die bei der Entwicklung von Software z. B. für Repositorien wichtig sein sollten, werden präsentiert. Der Trainingskurs hat als Ziel, den Teilnehmerinnen und Teilnehmern die große Bedeutung ausgereifter Datenorganisation bewusst zu machen und in ihrer Praxis umzusetzen bzw. Softwaresysteme zu verwenden, die die Basisprinzipien umsetzen.
Organisatoren: Peter Wittenburg, N.N.

T3: Data Type Registries

Data Type Registries sind ein neuer Vorschlag, um auf deklarativer Basis Typen (syntaktisch, semantisch) mit Funktionen zu verbinden. Typen können etwas Komplexes wie ein Filetyp oder etwas Simples sein wie z.B. eine Kategorie wie „Temperatur“, die in einem Filetyp vorkommt. Eine DTR erlaubt es dem Erzeuger anzugeben, wie ein bestimmter Typ interpretiert werden soll und ob eine bestimmte Funktion ausgeführt werden soll. Im Beispiel eines Filetypes könnte man z. B. eine Visualisierungs-Software angeben, die dann ausgeführt würde. Dies würde es erlauben, dass man als Wissenschaftlerin oder Wissenschaftler nicht mehr selbst wissen müsste, wie man einen bestimmten Type interpretieren muss. Im Beispiel der Temperatur kann man pro Kontext, in dem die Werte auftreten, Konvertierungsregeln angeben, um so Interoperabilität herzustellen. Der DTR-Vorschlag wird jetzt von einigen wissenschaftlichen Projekten mit großem Interesse umgesetzt und getestet. Der Trainingskurs hat die Aufgabe, die Teilnehmerinnen und Teilnehmer mit den Prinzipien der DTR vertraut zu machen und Beispiele aus den Material- und Umweltwissenschaften zu diskutieren.
Organisator: Christophe Blanchi

T4: Metadaten

Der Begriff „Metadaten“ taucht in verschiedenen Kontexten mit verschiedenen Funktionen. Im Bereich des Datenmanagements und dessen Verwendung sprechen wir über Informationen, die die Eigenschaften von Datenobjekten beschreiben, so dass sie gefunden, verwaltet, kuratiert, interpretiert und wiederverwendet werden können. Dabei müssen Metadaten sowohl für menschliche als auch immer öfter für maschinelle Aufgaben geeignet sein. Metadaten umfassen Informationen allgemeiner Art, wie sie z. B. im Dublin Core Set verankert sind, bis hin zu detaillierten Informationen in strukturierten Sets, wie sie für die disziplinorientierte Forschung erforderlich sind bzw. durch W3C Prov beschrieben werden. Nur eine große Explizitheit durch die Registrierung der Schemata und der in ihnen verwendeten semantischen Kategorien wird helfen mit der großen Vielfalt fertig zu werden. Demgegenüber ist die Datenpraxis in den Laboren immer noch von der Abwesenheit sauber definierter Metadaten geprägt. Der Trainingskurs wird sowohl die verschiedenen Aspekte von Metadaten benennen als auch praktische Schritte anführen, wie die gegenwärtige Praxis verbessert werden kann. 
Organisatoren: Daan Broeder, Hannes Thiemann

T5: Repositorien

Es ist allgemein anerkannt, dass zertifizierte und damit vertrauenswürdige Repositorien die Basis für ein gutes Datenmanagement darstellen. Repositorien müssen über definierte Schnittstellen Zugriff zu ihren Daten, den dazugehörigen Metadaten und eventuell auch zu Diensten über die Daten erlauben. Welche Anforderungen müssen erfüllt sein, um z. B. die Zertifizierung entsprechend dem DSA-Standard zu erreichen? Welche Software-Systeme gibt es, um gut strukturierte Repositorien aufzubauen? Was ist an Eigenleistung zu erbringen, um ein Respositorium aufzubauen? Welche Managementstrukturen müssen aufgebaut werden? In dem Trainingskurs werden diese und ähnliche Fragen behandelt mit dem Ziel auch konkrete Handlungsvorschläge darzustellen.
Organisatoren: Ralph Müller-Pfefferkorn, Thomas Zastrow

T6: DMP

Projektförderer fordern die Einreichung eines Datenmanagementplans mit jedem Projektantrag. Seine primäre Aufgabe ist es, dass sich Wissenschaftlerinnen und Wissenschaftler bereits zu Beginn Gedanken machen, welche Daten erhoben bzw. erzeugt werden sollen und was mit diesen Daten geschehen soll. Diese Intention ist zu begrüßen, allerdings sind die DMPs momentan nicht „produktiv“, sondern landen zumeist in einer Schublade, nachdem der Antrag bewilligt worden ist. Dafür gibt es mehrere bekannte Gründe. Tools wurden von verschiedenen Initiativen entwickelt, die dem Wissenschaftler helfen, DMPs in effizienter Weise zu erzeugen. Eine Diskussion ist entbrannt, wie man DMPs produktiver für die Wissenschaftlerinnen und Wissenschaftler machen kann, z. B. durch „aktive DMPs“. Der Trainingskurs wird die DMPs erläutern, ein oder zwei Tools vorstellen, die Probleme mit DMPs erläutern und die Ideen zu aktiven DMPs vorstellen.
Organisatoren: Jochen Klar, Herman Stehouwer, Thorsten Trippel