Produktdetails

Datum der Erstverfügbarkeit
Version/Versionsdatum
4.4.0
Lizenzmodell
GPL
Preis
kostenlos
Support
Community
Technische Voraussetzungen
OS: Windows, Linux oder Mac (mind. 10.11)
Java

Beschreibung

Mit KNIME lassen sich einfache Verknüpfungen verschiedener Tabellen (z.B. Excel-Dateien) genauso realisieren, wie die Nutzung verschiedener Datenquellen. Der Einsatzbereich reicht von der Exploration von Datenbeständen mittels Preprozessierungs- (Zusammenführen und Selektieren) und Analysemethoden (Abbildungen und Statistiken) bis zur Entwicklung von voll entwickelten ETL-Workflows (Extract-Transform-Load), die dann später ohne Grafik im Hintergrund laufen sollen.

Die Stärke von KNIME liegt u.a. auf dem einfach nachvollziehbaren Datenfluss durch die einzelnen Subprogramme, die mittels grafischer Darstellung explizit die zugrundeliegende Programmstruktur abbildet.

Das Ampelsystem der Icons für die Subprogramme erlaubt eine einfache Fehlersuche – auch für Laien – an welcher Stelle der Workflow hängen geblieben ist. Beispielsweise, wenn sich eine Spaltenbezeichnung geändert hat. Das Ampelsystem erlaubt somit eine relativ einfache Wartung der Workflows. Dies erlaubt es schnell auf immer wieder im Alltag auftretende Änderungen in den Datenquellformaten zu reagieren und den Workflow anzupassen. Erfahrene Nutzer können das System auch um eigene Knoten erweitern und diese Lösungen dann teilen.

Auch können sich Laien hier relativ einfach und selbstständig ihre Kollektive aus einem größeren Datensatz zusammenstellen: Dies erfolgt in der Regel dadurch, dass die Nutzer schrittweise den Datensatz nach verschiedenen Kriterien bzw. Spalten filtern. Ein Subset aus benötigten Spalten kann ebenfalls so zusammengestellt werden.

Diese Filterregeln sind dann jeweils in den Einzelknoten hinterlegt. Zusätzlich zur Dokumentation – was bei einem spezifischen Datensatz durchgeführt wurde, um das Kollektiv zu definieren – können jedoch diese Filterregeln einfach mittels Copy&Paste für neue oder aktualisierte Datensätze eingesetzt werden.

Damit wird auch die Pflege von Datensätzen erleichtert, da auffällige Dateneinträge in einem Qualitätsfilterpfad definiert werden können und diese Filterregel dann wiederholt zum Reporting eingesetzt werden kann, um diese Auffälligkeiten dann gezielt abarbeiten zu können (Bspw. "Geboren" nach der OP im Fall von Brustkrebs, als Beispiel für die Identifikation eines offensichtlich fehlerhaftes Datumspaars).

KNIME bietet ferner viele Schnittstellen zu anderen Sprachen und Umgebungen und ist dementsprechend erweiterbar. So kann man für statistische Analysen und Plots einfach auf R zugreifen und die Tabellen und Abbildungen dann nahtlos in KNIME weiterverwenden.

Zudem sind verschiedene Datenformate kompatibel, wie klassischerweise Tabellen, aber auch komplexere Formate wie JSON, XML oder unterschiedliche Bildformate.

Der Datentransfer zu und von Zielsystemen kann einerseits mittels verschiedener Konnektoren bei entsprechend vorliegenden Rechten direkt über die jeweilige Datenbanksoftware erfolgen, jedoch kann man auch per HTTP-Requests/Abfragen auf Datenbestände zugreifen oder über entsprechende Web-Eingabeformulare Daten ablegen. Dies erlaubt es, schnell Prototypen für ETL-Strecken zu entwickeln und flexibel auf Änderungen im Extrakt- oder Load-Teil zu reagieren bzw. diese dann zu optimieren, ohne den Transform-Teil bearbeiten zu müssen.

Ein Workflow mit darin gespeicherten Daten kann als Dokumentation einer Analyse dienen, da dort die Daten und die einzelnen Verarbeitungsschritte bis zur Statistik zusammen vorliegen. Auch wenn zwischenzeitlich eine Quelle (Server, Datei) nicht mehr verfügbar ist, so liegen die zuvor daraus geladenen Daten noch vor. Der Zusammenhang der Daten und Analysen wird direkt grafisch anschaulich erfasst und erlaubt auch fremden Nutzern nachzuvollziehen, was das jeweilige Programm/Workflow mit welchen Daten wann macht.

Fazit: Ein generell anwendbares Software-Tool im Bereich DataScience.

Mittels KNIME wurden Daten aus folgenden Softwarequellen im ToolPool ausgewertet/verarbeitet:

Die mittels KNIME ausgewerteten/verarbeiteten Daten können in folgenden Softwareprodukten im ToolPool weiterverarbeitet werden:

Das Produkt im Einsatz

  • Universitätsmedizin Göttingen - Institut für Medizinische Bioinformatik
  • Medizinische Hochschule Hannover - Klinik für Pädiatrische Pneumologie, Allergologie und Neonatologie
  • DFG-Projekt CandActCFTR (@UMG und @MHH)
  • AutoBuSTeD Projekt zur Bildverarbeitung und Analyse

Vormals in den abgeschlossenen Projekten:

Unterstützung

  • Unter knime.com werden eine Reihe von Ressourcen, die einem Nutzer beim Einstieg weiterhelfen können, gelistet.
  • Unter https://hub.knime.com/ ist der neue Ort für die Dokumentation und Suche von KNIME-Komponenten - dort zu finden sind einzelne Programmelemente als auch ganze Workflows verfügbar, die den Einstieg erleichtern und die Komponenten im Programmkontext zeigen.
  • Seit 2008 bietet die KNIME.com GmbH mit Sitz in Zürich auch die Bereitstellung professioneller technischer Unterstützung und Beratungsdienste an. Sie führt auch entsprechende Schulungen und Webinare durch.
  • Ein Einstiegskurs wird auch am Institut für Medizinische Bioinformatik der Unversitätsmedizin Göttingen angeboten.

Darüber hinaus bietet der TMF e.V. an, Workshops/Tutorials zu KNIME zu organisieren, welche von Herrn Dr. Manuel Nietert (UMG) gehalten werden. Interessenten können sich gern an die TMF-Geschäftsstelle wenden, um sich in eine Warteliste eintragen zu lassen.

Erfahrungsberichte

  • Data Mining in OMICS-Datensätzen mit KNIME

    Ich bin Biochemikerin und setze KNIME seit 2017 als Werkzeug zur Handhabung von OMICS-Daten beim Data Mining ein. Im Einzelnen verwende ich KNIME z.B. um

    • ein Datenformat einer Software  (z.B. Ausgabeformat der Transkriptomdaten unserer Research-Core-Unit) für ein anderes Internetwerkzeug (z.B. Software GenePattern) bereitzustellen
    • in Listen von differentiell exprimierten Genen nach Überlappungen zu Vergleichsdatensätzen (z.B. aus NCBI) zu suchen
    • für durch NGS bereitgestellten ChIP-Seq Datensätzen Filterkriterien abzuleiten, die eine Vorhersage von regulierten Genen erlauben
    • in Transkriptomdatensätzen nach Gen-Sets zu suchen, die unter zwei Bedingungen kontrastierend exprimiert  werden
    • in T-Zell-Rezeptor-Sequenzen eineiiger Zwillinge übereinstimmende und divergente TCR-Varianten zu identifizieren

    Diese kleinteiligen Aufgaben lassen sich selbstverständlich auch direkt aus der XLS heraus händisch erledigen, aber: mit KNIME ist der Zeitbedarf dafür wesentlich geringer und die Nachvollziehbarkeit einzelner Schritte durch die Dokumentation im KNIME-Workflow dauerhaft möglich. Arbeitsökonomisch werden besonders die Genlistenvergleiche, da sich zahlreiche wiederkehrende Zwischenschritte (z.B. Filtern der Rohdaten oder Einlesen eines Vergleichsdatensatzes) durch direktes Kopieren einzelner Teile eines bereits bestehenden Workflows wiederverwenden lassen.

    Für solche Alltagsaufgaben eines Datenschürfers ist KNIME ist auch für Anwender ohne wesentliche Programmiererfahrung sehr gut anwendbar.

Eigenen Erfahrungsbericht verfassen

Referenzen

Publikationen, die unter Verwendung von KNIME mit klinischem Kontext entstanden sind:

  • Jo P, Kesruek H, Nietert M , Sahlmann C, Gaedcke J, Ghadimi M, Sperling J. Inzidenz und Prädiktive Faktoren des Bilateralen Papillären Schilddrüsenkarzinoms. Zentralblatt für Chirurgie. 2018, accepted 06.2018
  • Lowes M, Kleiss M, Lueck R, Detken S, Koenig A, Nietert M, Beissbarth T, Stanek K, Langer C, Ghadimi M, Conradi LC, Homayounfar K. The utilization of multidisciplinary tumor boards (MDT) in clinical routine: results of a health care research study focusing on patients with metastasized colorectal cancer. International journal of colorectal disease. 2017; PubMed [journal] PMID: 28779354, PMCID: PMC5596058
  • Rühlmann F, Nietert M, Sprenger T, Wolff HA, Homayounfar K, Middel P, Bohnenberger H, Beissbarth T, Ghadimi BM, Liersch T, Conradi LC. The Prognostic Value of Tyrosine Kinase SRC Expression in Locally Advanced Rectal Cancer. Journal of Cancer. 2017; 8(7):1229-1237. PubMed [journal] PMID: 28607598, PMCID: PMC5463438
  • Jo P, Nietert M, Gusky L, Kitz J, Conradi LC, Müller-Dornieden A, Schüler P, Wolff HA, Rüschoff J, Ströbel P, Grade M, Liersch T, Beißbarth T, Ghadimi MB, Sax U, Gaedcke J. Neoadjuvant Therapy in Rectal Cancer - Biobanking of Preoperative Tumor Biopsies. Scientific reports. 2016; 6:35589. PubMed [journal] PMID: 27752113, PMCID: PMC5067705

Kommentare

Um einen Kommentar verfassen zu können, müssen Sie sich zunächst anmelden!