@phdthesis{Ginzel2007, type = {Bachelor Thesis}, author = {Sebastian Ginzel}, title = {Runtime Prediction von Textmining-Applikationen im Grid am Beispiel von ProMiner}, volume = {M{\"u}nchen}, institution = {Fraunhofer Publica}, doi = {10.24406/publica-fhg-277517}, pages = {75}, year = {2007}, abstract = {Grid Infrastrukturen sind heute in der Lage, auch gro{\"s}e Datenmengen verteilt zu verarbeiten. Ein Anwendungsgebiet, das davon profitiert, ist das Textmining. Es zeichnet sich vor allem durch die gro{\"s}e Anzahl voneinander unabh{\"a}ngiger Teiljobs aus, in die eine Aufgabe zerlegt werden kann. Um die Gesamtlaufzeit bis zur Fertigstellung eines Textmininglaufes f{\"u}r einen gro{\"s}en Datenbestand zu optimieren, ist Load-Balancing unerl{\"a}sslich. Daf{\"u}r muss abgesch{\"a}tzt werden, wie lange eine Ressource f{\"u}r die L{\"o}sung eines Teilproblems ben{\"o}tigt. Diese Absch{\"a}tzungen beruhen auf den Aufzeichnungen vorangegangener Textminingverarbeitungen. Sind dar{\"u}ber noch keine Daten vorhanden, muss die Laufzeitvorhersage anhand der Leistungsf{\"a}higkeit der Hardware einer Ressource prognostiziert werden. Wir stellen in dieser Arbeit Methoden vor, mit denen die Laufzeit f{\"u}r Textmining-Applikationen mittels historischer Daten und Hardwareeigenschaften vorhergesagt werden kann. Dabei nutzen wir Methoden der Statistik und des maschinellen Lernens, um eine Prognose zu berechnen. Anschlie{\"s}end wird ein Dienst vorgestellt, der eine Laufzeitvorhersage im Grid anbietet. Er kann auch f{\"u}r andere Anwendungsgebiete als das Textmining eingesetzt werden und ist in der Lage, Informationen {\"u}ber die Laufzeiten von Jobs auf den Ressourcen abzurufen. Dazu nutzt er bereits vorhandene Dienste der Grid-Middleware und kann sich so dynamisch in bestehende Strukturen eingliedern.}, language = {de} }