KNIME Analytics Platform
Produktdetails
Produktdetails
Beschreibung
Mit KNIME lassen sich einfache Verknüpfungen verschiedener Tabellen (z.B. Excel-Dateien) genauso realisieren, wie die Nutzung verschiedener Datenquellen. Der Einsatzbereich reicht von der Exploration von Datenbeständen mittels Preprozessierungs- (Zusammenführen und Selektieren) und Analysemethoden (Abbildungen und Statistiken) bis zur Entwicklung von voll entwickelten ETL-Workflows (Extract-Transform-Load), die dann später ohne Grafik im Hintergrund laufen sollen.
Die Stärke von KNIME liegt u.a. auf dem einfach nachvollziehbaren Datenfluss durch die einzelnen Subprogramme, die mittels grafischer Darstellung explizit die zugrundeliegende Programmstruktur abbildet.
Das Ampelsystem der Icons für die Subprogramme erlaubt eine einfache Fehlersuche – auch für Laien – an welcher Stelle der Workflow hängen geblieben ist. Beispielsweise, wenn sich eine Spaltenbezeichnung geändert hat. Das Ampelsystem erlaubt somit eine relativ einfache Wartung der Workflows. Dies erlaubt es schnell auf immer wieder im Alltag auftretende Änderungen in den Datenquellformaten zu reagieren und den Workflow anzupassen. Erfahrene Nutzer können das System auch um eigene Knoten erweitern und diese Lösungen dann teilen.
Auch können sich Laien hier relativ einfach und selbstständig ihre Kollektive aus einem größeren Datensatz zusammenstellen: Dies erfolgt in der Regel dadurch, dass die Nutzer schrittweise den Datensatz nach verschiedenen Kriterien bzw. Spalten filtern. Ein Subset aus benötigten Spalten kann ebenfalls so zusammengestellt werden.
Diese Filterregeln sind dann jeweils in den Einzelknoten hinterlegt. Zusätzlich zur Dokumentation – was bei einem spezifischen Datensatz durchgeführt wurde, um das Kollektiv zu definieren – können jedoch diese Filterregeln einfach mittels Copy&Paste für neue oder aktualisierte Datensätze eingesetzt werden.
Damit wird auch die Pflege von Datensätzen erleichtert, da auffällige Dateneinträge in einem Qualitätsfilterpfad definiert werden können und diese Filterregel dann wiederholt zum Reporting eingesetzt werden kann, um diese Auffälligkeiten dann gezielt abarbeiten zu können (Bspw. "Geboren" nach der OP im Fall von Brustkrebs, als Beispiel für die Identifikation eines offensichtlich fehlerhaftes Datumspaars).
KNIME bietet ferner viele Schnittstellen zu anderen Sprachen und Umgebungen und ist dementsprechend erweiterbar. So kann man für statistische Analysen und Plots einfach auf R zugreifen und die Tabellen und Abbildungen dann nahtlos in KNIME weiterverwenden.
Zudem sind verschiedene Datenformate kompatibel, wie klassischerweise Tabellen, aber auch komplexere Formate wie JSON, XML oder unterschiedliche Bildformate.
Der Datentransfer zu und von Zielsystemen kann einerseits mittels verschiedener Konnektoren bei entsprechend vorliegenden Rechten direkt über die jeweilige Datenbanksoftware erfolgen, jedoch kann man auch per HTTP-Requests/Abfragen auf Datenbestände zugreifen oder über entsprechende Web-Eingabeformulare Daten ablegen. Dies erlaubt es, schnell Prototypen für ETL-Strecken zu entwickeln und flexibel auf Änderungen im Extrakt- oder Load-Teil zu reagieren bzw. diese dann zu optimieren, ohne den Transform-Teil bearbeiten zu müssen.
Ein Workflow mit darin gespeicherten Daten kann als Dokumentation einer Analyse dienen, da dort die Daten und die einzelnen Verarbeitungsschritte bis zur Statistik zusammen vorliegen. Auch wenn zwischenzeitlich eine Quelle (Server, Datei) nicht mehr verfügbar ist, so liegen die zuvor daraus geladenen Daten noch vor. Der Zusammenhang der Daten und Analysen wird direkt grafisch anschaulich erfasst und erlaubt auch fremden Nutzern nachzuvollziehen, was das jeweilige Programm/Workflow mit welchen Daten wann macht.
Fazit: Ein generell anwendbares Software-Tool im Bereich DataScience.
Mittels KNIME wurden Daten aus folgenden Softwarequellen im ToolPool ausgewertet/verarbeitet:
Die mittels KNIME ausgewerteten/verarbeiteten Daten können in folgenden Softwareprodukten im ToolPool weiterverarbeitet werden:
Das Produkt im Einsatz
- Universitätsmedizin Göttingen - Institut für Medizinische Bioinformatik
- Medizinische Hochschule Hannover - Klinik für Pädiatrische Pneumologie, Allergologie und Neonatologie
- DFG-Projekt CandActCFTR (@UMG und @MHH)
- AutoBuSTeD Projekt zur Bildverarbeitung und Analyse
Vormals in den abgeschlossenen Projekten:
Unterstützung
- Unter knime.com werden eine Reihe von Ressourcen, die einem Nutzer beim Einstieg weiterhelfen können, gelistet.
- Insbesondere der Introductory-Kurs ist hierfür geeignet.
- Unter https://hub.knime.com/ ist der neue Ort für die Dokumentation und Suche von KNIME-Komponenten - dort zu finden sind einzelne Programmelemente als auch ganze Workflows verfügbar, die den Einstieg erleichtern und die Komponenten im Programmkontext zeigen.
- Seit 2008 bietet die KNIME.com GmbH mit Sitz in Zürich auch die Bereitstellung professioneller technischer Unterstützung und Beratungsdienste an. Sie führt auch entsprechende Schulungen und Webinare durch.
- Ein Einstiegskurs wird auch am Institut für Medizinische Bioinformatik der Unversitätsmedizin Göttingen angeboten.
Darüber hinaus bietet der TMF e.V. an, Workshops/Tutorials zu KNIME zu organisieren, welche von Herrn Dr. Manuel Nietert (UMG) gehalten werden. Interessenten können sich gern an die TMF-Geschäftsstelle wenden, um sich in eine Warteliste eintragen zu lassen.
Referenzen
Publikationen, die unter Verwendung von KNIME mit klinischem Kontext entstanden sind:
- Jo P, Kesruek H, Nietert M , Sahlmann C, Gaedcke J, Ghadimi M, Sperling J. Inzidenz und Prädiktive Faktoren des Bilateralen Papillären Schilddrüsenkarzinoms. Zentralblatt für Chirurgie. 2018, accepted 06.2018
- Lowes M, Kleiss M, Lueck R, Detken S, Koenig A, Nietert M, Beissbarth T, Stanek K, Langer C, Ghadimi M, Conradi LC, Homayounfar K. The utilization of multidisciplinary tumor boards (MDT) in clinical routine: results of a health care research study focusing on patients with metastasized colorectal cancer. International journal of colorectal disease. 2017; PubMed [journal] PMID: 28779354, PMCID: PMC5596058
- Rühlmann F, Nietert M, Sprenger T, Wolff HA, Homayounfar K, Middel P, Bohnenberger H, Beissbarth T, Ghadimi BM, Liersch T, Conradi LC. The Prognostic Value of Tyrosine Kinase SRC Expression in Locally Advanced Rectal Cancer. Journal of Cancer. 2017; 8(7):1229-1237. PubMed [journal] PMID: 28607598, PMCID: PMC5463438
- Jo P, Nietert M, Gusky L, Kitz J, Conradi LC, Müller-Dornieden A, Schüler P, Wolff HA, Rüschoff J, Ströbel P, Grade M, Liersch T, Beißbarth T, Ghadimi MB, Sax U, Gaedcke J. Neoadjuvant Therapy in Rectal Cancer - Biobanking of Preoperative Tumor Biopsies. Scientific reports. 2016; 6:35589. PubMed [journal] PMID: 27752113, PMCID: PMC5067705
Kommentare
Um einen Kommentar verfassen zu können, müssen Sie sich zunächst anmelden!