RDA-Deutschland-Treffen 2016

Potsdam, 28.-29. November 2016

[in English]

Sessionabstracts

Breakout-Sessions

S1: Verbesserung der Daten-Praxis

Es ist allgemein akzeptiert, dass unsere Daten-Praxis, d. h. das Umgehen mit Daten, nicht effizient und kosten-effektiv ist. Verschiedene Initiativen wie z. B. die Research Data Alliance, die G8 und FAIR Gruppen, das W3C Konsortium und andere bemühen sich, Prinzipien, Empfehlungen und auch Technologien auszuarbeiten, die den Umgang mit Daten verbessern können und uns somit auf die kommenden Herausforderungen mit noch größeren Datenmengen und einer erhöhten Komplexität vorbereiten. Vor allem werden es automatische Prozeduren in der Arbeit mit flexibel definierten Kollektionen sein, die den Weg in die Zukunft weisen. Wenn, wie Umfragen andeuten, Wissenschaftler mehr als 70% ihrer Zeit damit verbringen, Daten wieder zu finden, diese „irgendwie“ abzuspeichern, Formate ausfindig zu machen etc., dann wird es Zeit nach prinzipiell anderen Lösungen zu suchen. Datenmanagementpläne sind ein Schritt, um alle Beteiligten zum Nachdenken anzuregen.
Für diese Session möchten wir um Beiträge bitten, die den Weg in einen verbesserten Umgang mit Daten weisen und für eine größere Gemeinde von Nutzern relevant sein können, d. h. sich verallgemeinern lassen und Best Practices ableiten lassen bzw. auf bestehenden Best-Practice-Vorschlägen basieren.
Organisator: Peter Wittenburg

S2: Lösungen im Spannungsfeld von (Datenschutz-)Recht und Wissenschaft

Durch die fachübergreifende Verknüpfung von Datensätzen wird die Grenze zwischen sozial- und lebenswissenschaftlichen Daten auf der einen und technischen (Umwelt-)Daten zunehmend durchbrochen. Damit sind rechtliche Aspekte, insbesondere des Datenschutzes, aber auch Eigentums- und Nutzungsfragen in immer mehr Forschungsprojekten einzubeziehen. Denn immer dann, wenn personenbezogene- oder personenbeziehbare Mikrodaten erhoben, verarbeitet oder archiviert werden, sind die Vorgaben des Datenschutzrechtes zu beachten, d. h. die rechtlichen Grundlagen müssen mittels technischer und organisatorischer Maßnahmen umgesetzt werden. Fragen der Anonymisierung und Datensicherheit spielen dabei ebenso eine zentrale Rolle wie z. B. die Rechte der Betroffenen oder Restriktionen bei der Datenübermittlung an Dritte.
Die Session soll sich an alle richten, die mit personenbezogenen Daten forschen oder entsprechende Daten miteinander verknüpfen (wollen) sowie an Anbietende von Infrastrukturen. Vor diesem Hintergrund möchten wir um Beiträge bitten, die die rechtlichen Grundlagen für die Nutzung von Forschungsdaten in den verschiedenen Fachdisziplinen und ihre praktische Folgen für den Forschungsprozess aufzeigen. Auch Beiträge zu konkreten Lösungsmodellen oder zur juristischen Praxis von Infrastruktureinrichtungen sind willkommen.
Organisatorin: Claudia Oellers

S3: Training/Ausbildung

Digitale Forschungsdaten und das Management von Forschungsdaten spielen eine immer größere Rolle sowohl in der Wissenschaft, in der Wirtschaft als auch der private Umgang mit persönlichen digitalen Daten. Dazu brauchen wir neue Kompetenzen, neue Berufsbilder und neue Ausbildungs- und Schulungskonzepte. Bereits jetzt gibt es international und national Vorschläge, Richtlinien und Empfehlungen für allgemein einzuhaltende Prinzipien, für Policies im Umgang mit Forschungsdaten und Konzepte für die Ausbildung und Schulung von sog. Datenmanagern, „data librarians“, „data scientists“ etc. Dieser Trend wird sich fortsetzen, denn durch verschiedene Initiativen (W3C, OAI, RDA, FAIR, etc.) werden systematisch weitere Empfehlungen und Spezifikationen ausgearbeitet.
Eine besondere Herausforderung dabei ist, wie man möglichst schnell viele potentiell Interessierte erreichen kann, d. h. wie eine Vielzahl von Trainern ausgebildet und geschult kann, die das neue Wissen im Umgang mit digitalen Forschungsdaten effizient verbreiten können. Obwohl die Begriffe international noch nicht sauber abgegrenzt sind, gibt es grob gesprochen zwei Richtungen: Zum einen bedarf es sog. „data scientists“, die auch ein Verständnis über analytische Methoden (Machine Learning, stochastische Methoden, etc.) mitbringen und zum anderen bedarf es sog. „data manager“, die den gesamten Lebenszyklus von Daten verstehen und in jeder Phase wissen, worauf zu achten ist und welche Maßnahmen jetzt und vielleicht künftig zu ergreifen sind.
Der Ablauf der Session gestaltet sich wie folgt, wobei jeweils genug Zeit für Diskussionen und Anregungen eingeplant ist:
•  Prof. Dr. Heike Neuroth (Fachhochschule Potsdam) begrüßt die TeilnehmerInnen und führt in die Session ein. Dabei wird auch ein kurzer Überblick über aktuelle Entwicklungen (z. B. DINI/Nestor AG Forschungsdaten) in Deutschland gegeben.
•  Danach wird es von Prof. Dr. René Schneider (Haute école de gestion de Genève, Information documentaire) einen Überblicksbeitrag zu gerade aktuell fertig gestellten online Lernmodulen zu wichtigen Aspekten des Forschungsdatenmanagements geben, die im Rahmen des Projekts „Train2Dacar“ erstellt wurden, ein Modul „train the trainer“ enthalten und kostenfrei zur Nachnutzung bereit stehen. Herr Prof. Schneider wird auch von Erfahrungen berichten, die im Rahmen diverser Schulungen gesammelt werden konnten.
•  Im Anschluss berichtet Dr. Stefan Winkler-Nees (Deutsche Forschungsgemeinschaft, DFG) über aktuelle Entwicklungen (Ausschreibungen, Projekte etc.), die u. U. auch Tutorials, Schulungen etc. umfassen.
•  Zum Schluss gibt Dr. Peter Wittenburg einen Überblick über internationale Diskussionen, Initiativen und Entwicklungen, die unterstreichen, wie wichtig Nachwuchsförderung und geeignete Ausbildungswege inklusive der Definition neuer Abschlüsse und Berufsfelder sind.
Organisation: Heike Neuroth & Peter Wittenburg

S4: Datenanalyse

Im Zentrum des Datenlebenszyklus steht zwischen Erhebung, Erschießung und Speicherung auf der einen und Archivierung und Zugang auf der anderen Seite das Thema Analyse. Die Hoffnungen, aus der beständig steigenden Fülle von Daten relevante Information zu extrahieren beruht auf der Methodik, in der Datenflut relevantes von irrelevantem zu trennen, neue Aspekte in Daten zu entdecken, die oft zum Zeitpunkt der Planung von Datenakquise noch gar nicht absehbar waren, und durch das Verschneiden von unterschiedlichen Datensätzen neue Sichtweisen zu erzeugen. Dabei stellen sich neben technischen Aspekten (z.B. die Bewältigung der puren Datenmenge) auch neue Herausforderungen im Umgang mit Daten (z.B. Schutz personenbezogener Daten). Auf dem Weg zur datenintensiven Wissenschaft dürfen derartige Aspekte freilich nicht zum erfolgseinschränkenden Faktor werden. Die Session soll sich mit Fragen der Datenanalyse in großen, heterogenen Datensätzen unterschiedlicher Vertrauensniveaus beschäftigen.
Es werden Beiträge gesucht, die neue methodische Wege aufzeigen, Wissen aus großen Datenmengen zu generieren, Analyse über eine Vielzahl verteilter Datenmengen zu betreiben, oder durch Techniken des Privacy Aware Data Mining den Herausforderungen eines modernen Datenschutzes zu begegnen. Dabei sind die Darstellung von Fallbeispielen aus der Praxis ebenso gewünscht, wie die Vorstellung methodischer Lösungsansätze.
Organisator: Wolfgang zu Castell

Trainingskurse

Wir werden uns bemühen, qualifizierte Referentinnen und Referenten zu gewinnen. Abhängig von den gewonnenen Experten können sich die Schwerpunkte der Inhalte verschieben.

T1: Datenobjekte in zuverlässigen Repositorien

In den letzten Jahren ist das Datenvolumen im akademischen Bereich stark angestiegen und zwingt  Forscher und Datenmanager zu angepassten Arbeitsweisen und Methoden. Vertrauenswürdige Datenrepositorien haben an Bedeutung gewonnen und tragen mit ihrer Funktionalität den gestiegenen Anforderungen Rechnung: Persistente Identifikatoren (PIDs), Metadatenmanagement und automatisiert ansteuerbare APIs bilden das technisch funktionale Rückgrat moderner Datenrepositorien.   
So wird eine referenzierbarer und bei Berücksichtigung entsprechender Qualitätsstandards ein stabiler und zugreifbarer Datenraum geschaffen, der auch für wissenschaftliche Zitationen von Daten geeignet ist. Überprüfbare Regelsysteme wie beispielsweise von der „Data Seal of Approval“ Initiative erlauben es festzustellen, welchen Qualitätsstandards ein Repositorium folgt. Weiterhin wird es die zunehmende Menge an Daten erfordern, dass die datenerzeugenden Communities  umfangreichere Metadaten sowie Typ-Informationen über Datenobjekte derart speichern, dass auch eine maschinelle Auswertung und Interpretation durch Computer-Programme effizient ermöglicht wird.
Der erste Teil des Kurses wird daher die folgenden Punkte ansprechen:
•  Digitale Objekte und die Basis einer sauberen Organisation von Daten
•  Persistente Identifikatoren als Mittel zum Zugriff, zur Interpretation, zum Referenzieren und Zitieren
•  Anforderungen an Repository Software und das Regelwerk der „Data Seal of Approval“ Initiative
•  Realisierung eines Repositoriums mittels Fedora Commons
•  hands on: Realisierung eines einfachen Beispiel-Repositoriums
Der zweite Teil des Kurses wird sich mit den folgenden Punkten beschäftigen:
•  Handle-PIDs: wie sind sie aufgebaut und wie nutzt man sie - Types und Fragments
•  hands on: wie bekomme ich PIDs für meine Daten?
•  Verwendung von Metadaten zur Beschreibung von digitalen Objekten
•  Verwendung von „Data Type Registries“ zur Beschreibung von Typ-Information als Basis für weitergehende Operationen
Die Teilnehmer brauchen keine Programmierkenntnisse. Wo möglich wird der Kurs praktisch ausgerichtet (hands on).
Organisator: Peter Wittenburg

T2: Urheberrechtliche Fragen im Kontext der Publikation von Forschungsdaten

Für die Teilnahme an diesem Kurs werden keine urheberrechtlichen Vorkenntnisse benötigt. Wer Forschungsdaten von Dritten nutzen oder selbsterzeugte Forschungsdaten Dritten zur Verfügung stellen möchte, kommt um die Auseinandersetzung mit dem urheberrechtlichen Kontext (einschließlich Datenbankschutz) nicht herum. Wird im Rahmen der Planung eines Forschungsprojektes ein Datenmanagementplan erstellt, sollten in diesem die oben angesprochen rechtlichen Aspekte berücksichtigt werden.
Im Kurs wird eine kurze Einführung in das Urheberrecht mit einem Fokus auf die Auswirkungen auf das Publizieren von Daten gegeben. Zentrale Fragen, die aufgegriffen werden, sind:
•  Genießen Forschungsdaten urheberrechtlichen Schutz?
•  Sollen Forschungsdaten lizenziert werden?
•  Welche Lizenzen eignen sich gegebenenfalls?
•  Was muss aus urheberrechtlicher Perspektive bei der Nutzung von Daten Dritter beachtet werden?
Organisator:
Christoph Bruch

T3: Data Publishing, Citation, Referencing

In den letzten Jahren haben sich Datenpublikationen, d. h. die Veröffentlichung von Forschungsdaten als eigenständige Publikationen, als „best practice“ entwickelt, um den internationalen Erwartungen und Forderungen nach Open Research Data nachzukommen. Datensätze und ihre Beschreibungen werden von Forschungsdatenrepositorien veröffentlicht, idealerweise mit einem Digital Object Identifier (DOI), und sind voll zitierbar in wissenschaftlichen Artikeln. In diesem Workshop stellen wir die unterschiedlichen  Formate der Datenpublikation vor („klassische“ Datensupplemente, Datenpapers, Datenreports) und geben einen Überblick über internationale Initiativen zum Umgang mit Forschungsdaten und deren Zitation in Publikationen (z. B. Joint Declaration of Data Citation Principles, COPDESS Statement of Commitment, FAIR Principles).
•  Was ist eine Datenpublikation und was brauche ich dafür?
•  Was sind die Vorteile von Datenpublikationen, was habe ich als Autor davon?
•  Was sind Data Journals?
•  Wie zitiere ich einen Datensatz, den ich nachnutze?
•  Wie finde ich ein geeignetes Datenrepositorium?
Organisation: Kirsten Elger & Hans Pfeiffenberger

T4: Von Metadatenschemata bis zu Linked Open Data

Datenerzeuger werden mit einer großen Vielzahl an Möglichkeiten konfrontiert, wie man z. B. Metadaten und Annotationen organisiert und wie man sie für verschiedene Zielsetzungen optimal transformieren kann. Schemas werden zumeist immer noch verwendet, um Metadaten und auch Annotationen zu strukturieren. Die inhärent kompakte Darstellung läßt sich auch bei sehr großen Beständen leicht in leistungsstarke Indexe transformieren, die zur schnellen Suche verwendet werden können. Ebenfalls sind Methoden bekannt, wie verschiedene Metadaten-Standards transformiert werden können, so dass sie in einem semantisch gemeinsamen Suchraum verfügbar sind.
PROV ist ein Standard von W3C, um „provenance“ Meta-Informationen in geeigneter Form organisieren zu können und zwar derart, dass z.B. ein einheitliches Vokabular verwendet wird. PROV wird bereits breit eingesetzt, um die Herkunft von Datensätzen sauber beschreiben zu können.
Allerdings sind in Schemas semantische Relationen zumeist implizit enthalten, was bestimmte semantische Operationen nicht effizient unterstützt. Hier zeigt sich, dass das RDF (Resource Description Framework) eine geeignete Form der Darstellung sein kann. Elementare Relationen werden in einfache Assertionen (Triples) übertragen, die dann in modernen Speichersystemen wie den Triplestores hochgeladen werden, so dass sie dann mittels einer neuartigen Abfragesprache (SPARQL) durchsucht werden können. Dabei werden auch semantische Relationen genutzt, so dass bestimmte verborgene relationale Muster sichtbar werden können. Linked Open Data setzt genau die Beschreibung von Metadaten, Annotationen und anderem mittels RDF voraus und will im wesentlichen derartige offen verfügbare Informationen zur gezielten Nutzung zuammenbringen.
Es sollte hinzugefügt werden, dass man natürlich aus schema-basierten Daten RDF Assertionen erzeugen kann. Der Weg zurück von einer Unmenge an Assertionen zurück zu einem kompakten schema-basierten Format ist nicht trivial.
Dieser Kurs, der sich über zwei Stunden erstreckt, wird daher die folgenden Punkte ansprechen:
•  was sind typische Metadatenschemas, was sind ihre Vor- und Nachteile, wie kann man zwischen ihnen semantisch mappen, wie kann man effiziente Suchräume erzeugen, etc.
•  was ist RDF und was sind Assertionen (Triples)
•  wie kann man aus schema-basierten Informationen RDF Triples erzeugen
•  wie kann man mit Triples effizient umgehen (speichern, suchen, etc.)
•  was sind die Vor- und Nachteile von RDF Triples im Vergleich mit schema-basierten Methoden
•  was bedeutet Open Linked Data und was bringt es dem Nutzer?
Die Teilnehmer brauchen keine Programmierkenntnisse. Wo es möglich ist, wird der Kurs praktisch ausgerichtet, d. h. es wird gezeigt, wie man es macht.
Organisator: Peter Wittenburg

Themenblock Infrastrukturen

Auf vielerlei Wunsch möchten wir in einem Themenblock verschiedene existierende Services im Bereich der Daten einführen und deren Eigenschaften im Detail diskutieren. Dies wird es den Zuhörern ermöglichen, den gegenwärtigen Stand der Services zu erfassen und deren Verwendbarkeit abschätzen zu können. In einem Einführungsvortrag wird zunächst eine Übersicht über nationale und europäische Dateninfrastrukturen und deren Services gegeben und danach werden verschiedene Infrastrukturen sich kurz vorstellen. Dabei muss zwischen disziplinübergreifenden Diensten (EUDAT, OpenAIRE, Helix Nebula, HDF etc.) und disziplinspezifischen Diensten (ENVRI, DARIAH, CLARIN, ELIXIR, etc.) unterschieden werden. Verschiedene Initiativen werden zu Kurzbeiträgen aufgefordert, die sich an einen Fragenkatalog anlehnen. 
Organisatoren: Hans Pfeiffenberger & Peter Wittenburg