Fachbereich Informatik
Refine
H-BRS Bibliography
- yes (54)
Document Type
- Master's Thesis (33)
- Bachelor Thesis (18)
- Diploma Thesis (1)
- Report (1)
- Study Thesis (1)
Year of publication
Has Fulltext
- no (54) (remove)
Keywords
- Emergency support system (2)
- Mobile sensors (2)
- chemoCR (2)
- 3D-Laserscanner (1)
- 3D-Punktwolke (1)
- Alize (1)
- Augmented Reality (1)
- Automation (1)
- Batch Normalization (1)
- Computer Game (1)
- Datenbank (1)
- Distributed Systems (1)
- Domänen spezifische Sprache (1)
- Echtzeit-Tracking (1)
- Electronic Data Capture (EDC) (1)
- Expertensystem (1)
- Hibernate (1)
- Human Muscle (1)
- ICP (1)
- Information Retrieval (1)
- Interactive visualization (1)
- JBoss Drools (1)
- Java (1)
- Klassische Suchverfahren (1)
- KnowledgeFinder (1)
- Kollaboration (1)
- Konfiguration (1)
- LAMA (1)
- LDA (1)
- Labordaten (1)
- LibAMA (1)
- Löser (1)
- Markush (1)
- Motivation System (1)
- Nachbarschaftsanalyse (1)
- OGC sensor observation service (1)
- OGS sensor observation service (1)
- OSGi (1)
- PLDA (1)
- RANSAC (1)
- RCE (1)
- REDCap (1)
- Robotics (1)
- Robotik (1)
- SELU (1)
- SLAM (1)
- Sandbox (1)
- Segmentierung (1)
- Semantische Suche (1)
- Semantische Technologien (1)
- Sensor web enablement (1)
- Software testing (1)
- Speaker identification (1)
- Split-Screen (1)
- UAV (1)
- Virtuelle Realität (1)
- Wissenrepräsentation (1)
- YOLO v3 (1)
- bearing angle (1)
- context free grammar (1)
- deep learning (1)
- domain specific language (1)
- extSMILES (1)
- i-vectors (1)
- laser scanner (1)
- lineares Gleichungssystem (1)
- object detection (1)
- optical flow (1)
- patent search (1)
- quadrotor (1)
- structure reconstruction (1)
In der Forschung und Entwicklung finden komplexe Prozesse zur Datenerzeugung, -verarbeitung, -analyse und -visualisierung statt. Oftmals sind an diesen Prozessen Partner aus verschiedenen Einrichtungen beteiligt. Um ihr gemeinsames Ziel zu erreichen, stellen sich die Partner gegenseitig Ressourcen, Daten und Applikationen zur Verfügung. Eine Plattform, die diese Form der Zusammenarbeit erleichtert, wird in der Einrichtung für Simulations- und Softwaretechnik (SISTEC) des Deutschen Zentrums für Luft- und Raumfahrt (DLR) mitentwickelt. Die komplexen Prozesse erfordern aber nicht nur, dass Ressourcen, Daten und Applikationen zur Verfügung stehen, sondern auch, dass diese sinnvoll miteinander verknüpft werden können. Die Verknüpfung mehrerer Applikationen zu einer neuen Applikation, sowie deren Ausführung mit bestimmten Eingabedaten kann durch ein Workflowsystem für die Anwender stark vereinfacht werden. Im Rahmen dieser Master-Thesis wird die erwähnte Plattform um ein solches Workflowsystem erweitert.
In order to help journalists investigate inside large audiovisual archives, as maintained by news broadcast agencies, the multimedia data must be indexed by text-based search engies. By automatically creating a transcript through automatic speech recognition (ASR), the spoken word becomes accessible to text search, and queries for keywords are made possible. But stil, important contextual information like the identity of the speaker is not captured. Especially when gathering original footage in the political domain, the identity of the speaker can be the most important query constraint, although this name may not be prominent in the words spoken. It is thus desireable to have this information provided explicitely to the search engine. To provide this information, the archive must be an alyzed by automatic Speaker Identification (SID). While this research topic has seen substantial gains in accuracy and robustness over last years, it has not yet established itself as a helpful, large-scale tool outside the research community. This thesis sets out to establish a workflow to provide automatic speaker identification. Its application is to help journalists searching on speeches given in the German parliament (Bundestag). This is a contribution to the News-Stream 3.0 project, a BMBF funded research project that addresses accessibility of various data sources for journalists.
In dieser Arbeit wurden zwei verschiedene Aspekte zum gemeinsamen Arbeiten in gemeinsam genutzten virtuellen Umgebungen behandelt. Zum einen wurden verschiedene Verfahren vorgestellt, die eine gleichzeitige Betrachtung zweier unterschiedlicher Ansichten auf einer Projektionsfläche ermöglichen (Switchen, Picture in Picture und Splitscreen). Der Schwerpunkt bei diesem Teil der Arbeit lag bei dem Splitscreen, da er zwei gleichwertige verzerrungsfreie Bilder beider Ansichten erzeugt. Um die korrekte Perspektive zu erhalten, wird der Sichtkegel der Betrachter vertikal in der Mitte geteilt. Dadurch kann ein betrachtetes Objekt am Bildrand abgeschnitten werden, weshalb die Kamera der Betrachter neu auf dieses Objekt ausgerichtet werden muss. Hierdurch können unterschiedliche Transformationen für beide Anwender erfolgen, wodurch das kollaborative Arbeiten gestört wird. Der zweite Aspekt dieser Arbeit beschäftigte sich mit einem Kollisionsproblem, welches auftreten kann, wenn mehrereBenutzer gemeinsam einen schmalen Durchgang passieren. Die Darstellung der virtuellen Umgebung erfolgt im TwoView. Hier steht den Benutzern eine frei begehbare Fläche zur Verfügung, auf der ihre realen Positionen erfasst und in die virtuelle Umgebung übertragen werden. Das Beschreiten der virtuellen Umgebung erfolgt anhand von Wegen, deren Ablaufgeschwindigkeit von einem Benutzer gesteuert werden kann. Stehen die Personen zu weit auseinander, um durch einen Durchgang zu passen, muss mindestens einer durch eine Wand laufen. Um dieses Problem zu beheben, wurde eine Pfadkorrektur implementiert, die entweder die Betrachter auf einem sicheren Weg durch diesen Durchgang leitet oder den begangenen Weg anhält. Da sowohl bei der Darstellung zweier Ansichten als auch bei der Pfadkorrektur der gemeinsame Raum beeinträchtigt werden kann, wurde zuletzt ein empirischer Test zur Bewertung dieses Effekts durchgeführt.
Für die Durchführung größerer Projekte innerhalb des DLR ist es häufig notwendig, dass sich Wissenschaftler fachübergreifend in Themengebiete einarbeiten müssen. Im Rahmen dieser Einarbeitung führen Wissenschaftler Recherchen in fremden Fachbereichen durch. Das DLR hat zu diesem Zweck das Wissensportal KnowledgeFinder entwickelt. Dieses Framework setzt klassische Suchverfahren zum Auffinden von Informationen in beliebigen Datenbeständen ein. Wenn Wissenschaftler in fremden Fachbereichen recherchieren, dann fällt es ihnen aufgrund des oberflächlichen Einblicks oftmals schwer, zielgerichtet nach Informationen zu suchen. Die im KnowledgeFinder eingesetzten klassischen Suchverfahren, die auf textueller und struktureller Ähnlichkeit basieren, können bei diesen unspezifischen Suchanfragen nur bedingt beim Auffinden von relevanten Informationen helfen. Aufgrund von Mehrdeutigkeiten und unterschiedlichen Kontexten stoße solche Verfahren oftmals an ihre Grenzen. Semantische Technologien haben zum Ziel diesen Mangel zu beheben. Hier wird neben der textuellen und strukturellen Ähnlichkeit zusätzlich die Dimension der Bedeutung betrachtet. In dieser Masterthesis wurde untersucht, ob die Suchergebnisqualität des KnowledgeFinder durch den Einsatz semantischer Technologien verbessert werden kann. Innerhalb einer Machbarkeitsstudie wurde dazu das KnowledgeFinder Framework um semantische Suchverfahren erweitert. Diese Verfahren sollen die fachübergreifende Recherche von DLR-Wissenschaftlern erleichtern, indem sie ihnen helfen, passende Suchergebnisse in den entsprechenden Fachbereichen zu finden.
Semantic Image Segmentation Combining Visible and Near-Infrared Channels with Depth Information
(2015)
Image understanding is a vital task in computer vision that has many applications in areas such as robotics, surveillance and the automobile industry. An important precondition for image understanding is semantic image segmentation, i.e. the correct labeling of every image pixel with its corresponding object name or class. This thesis proposes a machine learning approach for semantic image segmentation that uses images from a multi-modal camera rig. It demonstrates that semantic segmentation can be improved by combining different image types as inputs to a convolutional neural network (CNN), when compared to a single-image approach. In this work a multi-channel near-infrared (NIR) image, an RGB image and a depth map are used. The detection of people is further improved by using a skin image that indicates the presence of human skin in the scene and is computed based on NIR information. It is also shown that segmentation accuracy can be enhanced by using a class voting method based on a superpixel pre-segmentation. Models are trained for 10-class, 3-class and binary classification tasks using an original dataset. Compared to the NIR-only approach, average class accuracy is increased by 7% for 10-class, and by 22% for 3-class classification, reaching a total of 48% and 70% accuracy, respectively. The binary classification task, which focuses on the detection of people, achieves a classification accuracy of 95% and true positive rate of 66%. The report at hand describes the proposed approach and the encountered challenges and shows that a CNN can successfully learn and combine features from multi-modal image sets and use them to predict scene labeling.
In der vorliegenden Arbeit wird ein Verfahren zur Segmentierung von Außenszenen und Terrain-Klassifkation entwickelt. Dazu werden 360 Grad-Laserscanner-Aufnahmen von Straßen, Gebäudefassaden und Waldwegen aufgenommen. Von diesen Aufnahmen werden verschiedene visuelle Repräsentationen in 2D erstellt. Dazu werden die Distanzinformationen und Winkelübergänge der Polarkoordinaten, die Remissionswerte und der Normalenvektor eingesetzt. Die Berechnung des Normalenvektors wird über ein modernes Verfahren mit einerniedrigen Laufzeit durchgeführt. Anschließend werden Oberflächeneigenschaften innerhalb einer Punktwolke analysiert und vier Klassen unterschieden: Untergrund, Vegetation, Hindernis und Himmel. Die Segmentierung und Klassifkation geschieht in einem Schritt. Dazuwird die Varianz auf den N ormalen über eine Filtermaske berechnet und ein Deskriptor erstellt. Der Deskriptor beinhaltet die Normalenvektoren und die Normalenvarianz fürdie x-, y- und z-Achse. Die Ergebnisse werden als Überblendung auf dem Remissionsbilddargestellt. Die Auswertung wird über eigens erstellte Ground-Truth-Daten vorgenommen. Dazu wird das Remissionsbild genutzt und der Ground-Truth mit verschiedenen Farben eingezeichnet. Die Klassifkationsergebnisse sind in Precision-Recall-Diagrammen dargestellt.
Segmentierung von 3D-Daten
(2011)
Die vorliegende Arbeit wird im Rahmen eines Projektes des Fraunhofer Instituts IAIS erstellt. Hier geht es um die Entwicklung eines neuen 3D-Laserscanners. Basierend auf diesem 3D-Laserscanner soll eine Sicherheits-Anwendung realisiert werden. Für eine Softwarekomponente - die Segmentierung von 3D-Daten - wird der Stand der Forschung untersucht und es werden drei Segmentierungs-Verfahren ausgewählt und implementiert. Der RANSAC-Algorithmus wird zur Detektion von Ebenen eingesetzt. In dieser Arbeit wird er um ein Abbruchkriterium erweitert, welches die Gesamtlaufzeit bei der Segmentierung von mehreren Ebenen verringert.
Scientists and engineers are using a distributed system Remote Component Environment (RCE) to design and simulate complex systems like airplanes, ships and satellites. During the simulation, RCE executes local and remote code. Remote code is classified as untrusted code. The execution of remote code comprises potential security risks for the host system of RCE. Additionally, RCE provides full access to system resources. The objective of this thesis is to implement a sandbox prototype to reduce the vulnerability of RCE during the execution of remote code.
Grid Infrastrukturen sind heute in der Lage, auch große Datenmengen verteilt zu verarbeiten. Ein Anwendungsgebiet, das davon profitiert, ist das Textmining. Es zeichnet sich vor allem durch die große Anzahl voneinander unabhängiger Teiljobs aus, in die eine Aufgabe zerlegt werden kann. Um die Gesamtlaufzeit bis zur Fertigstellung eines Textmininglaufes für einen großen Datenbestand zu optimieren, ist Load-Balancing unerlässlich. Dafür muss abgeschätzt werden, wie lange eine Ressource für die Lösung eines Teilproblems benötigt. Diese Abschätzungen beruhen auf den Aufzeichnungen vorangegangener Textminingverarbeitungen. Sind darüber noch keine Daten vorhanden, muss die Laufzeitvorhersage anhand der Leistungsfähigkeit der Hardware einer Ressource prognostiziert werden. Wir stellen in dieser Arbeit Methoden vor, mit denen die Laufzeit für Textmining-Applikationen mittels historischer Daten und Hardwareeigenschaften vorhergesagt werden kann. Dabei nutzen wir Methoden der Statistik und des maschinellen Lernens, um eine Prognose zu berechnen. Anschließend wird ein Dienst vorgestellt, der eine Laufzeitvorhersage im Grid anbietet. Er kann auch für andere Anwendungsgebiete als das Textmining eingesetzt werden und ist in der Lage, Informationen über die Laufzeiten von Jobs auf den Ressourcen abzurufen. Dazu nutzt er bereits vorhandene Dienste der Grid-Middleware und kann sich so dynamisch in bestehende Strukturen eingliedern.
Data management is a challenge in both scientific and technical environments. Therefore researchers have developed a special interest in this field. Modern approaches (i.e. Subversion, CVS) already offer authoring and versioning in distributed systems. However this might be insufficient in a vast number of scenarios, where not only the data resulting from a process, but also data which describes the process that generated those results is crucial.
In einem Grid steht Benutzern mit entsprechendem Zugang eine Vielzahl verteilter Ressourcen zur Verfügung. Die daraus entstehenden wirtschaftlichen und technischen Vorteile rechtfertigen die Portierung von bestehenden Desktop-Anwendungen. Die vorliegende Arbeit befasst sich mit der Fragestellung, welche Einflussfaktoren bei der Portierung von Desktop-Anwendungen in ein Grid eine Rolle spielen können und wie diese in Hinblick auf die Machbarkeit zu bewerten sind. Basierend auf den zugrunde liegenden Softwarearchitekturen werden Architekturmerkmale von Desktop-Anwendungen identifiziert und Hypothesen darüber entwickelt, welche Aspekte den Portierungsprozess beeinflussen. Am Beispiel der Portierung der Anwendung „DataFinder“ der Abteilung Verteilte Systeme und Komponentensoftware des DLR werden die entwickelten Hypothesen überprüft. Die Erkenntnisse aus der Beispielportierung werden ausführlich dargestellt und anschließend kritisch diskutiert.
In the field of autonomous robotics, sensors have played a major role in defining the scope of technology and to a great extent, limitations of it as well. This cycle of constant updates and hence technological advancement has made given birth to some serious industries which were once inconceivable. Industries like autonomous driving which has a serious impact on safety and security of people, also has an equally harsh implication on the dynamics and economics of the market. With sensors like LiDAR and RADAR delivering 3D measurements as point clouds, there is a necessity to process the raw measurements directly and many research groups are working on the same. A sizable research has gone in solving the task of object detection on 2D images. In this thesis we aim to develop a LiDAR based 3D object detection scheme. We combine the ideas of PointPillars and feature pyramid networks from 2D vision to propose Pillar-FPN. The proposed method directly takes 3D point clouds as input and outputs a 3D bounding box. Our pipeline consists of multiple variations of proposed Pillar-FPN at the feature fusion level that are described in the results section. We have trained our model on the KITTI train dataset and evaluated it on KITTI validation dataset.
Robots integrated into a social environment with humans need the ability to locate persons in their surrounding area. This is also the case for the WelcomeBot which is developed at the Fraunhofer Institute IAIS. In the future, the robot should follow persons in the buildings and guide them to certain areas. Therefore, it needs the capability to detect and track a person in the environment. In this master thesis, an approach for fast and reliable tracking of a person via a mobile robotic platform is presented. Based on the investigation of different methods and sensors, a laser scanner and a camera are selected as the primary two sensors.
Objektrelationale Datenbanken und Rough Sets für die Analyse von Contextualized Attention Metadata
(2009)
This project focuses on object detection in dense volume data. There are several types of dense volume data, namely Computed Tomography (CT) scan, Positron Emission Tomography (PET), Magnetic Resonance Imaging (MRI). This work focuses on CT scans. CT scans are not limited to the medical domain; they are also used in industries. CT scans are used in airport baggage screening, assembly lines, and the object detection systems in these places should be able to detect objects fast. One of the ways to address the issue of computational complexity and make the object detection systems fast is to use low-resolution images. Low-resolution CT scanning is fast. The entire process of scanning and detection can be made faster by using low-resolution images. Even in the medical domain, to reduce the rad iation dose, the exposure time of the patient should be reduced. The exposure time of patients could be reduced by allowing low-resolution CT scans. Hence it is essential to find out which object detection model has better accuracy as well as speed at low-resolution CT scans. However, the existing approaches did not provide details about how the model would perform when the resolution of CT scans is varied. Hence in this project, the goal is to analyze the impact of varying resolution of CT scans on both the speed and accuracy of the model. Three object detection models, namely RetinaNet, YOLOv3, and YOLOv5, were trained at various resolutions. Among the three models, it was found that YOLOv5 has the best mAP and f1 score at multiple resolutions on the DeepLesion dataset. RetinaNet model h as the least inference time on the DeepLesion dataset. From the experiments, it could be asserted that sacrificing mean average precision (mAP) to improve inference time by reducing resolution is feasible.
This thesis proposes a multi-label classification approach using the Multimodal Transformer (MulT) [80] to perform multi-modal emotion categorization on a dataset of oral histories archived at the Haus der Geschichte (HdG). Prior uni-modal emotion classification experiments conducted on the novel HdG dataset provided less than satisfactory results. They uncovered issues such as class imbalance, ambiguities in emotion perception between annotators, and lack of representative training data to perform transfer learning [28]. Hence, the objectives of this thesis were to achieve better results by performing a multi-modal fusion and resolving the problems arising from class imbalance and annotator-induced bias in emotion perception. A further objective was to assess the quality of the novel HdG dataset and benchmark the results using SOTA techniques. Through a literature survey on the challenges, models, and datasets related to multi-modal emotion recognition, we created a methodology utilizing the MulT along with a multi-label classification approach. This approach produced a considerable improvement in the overall emotion recognition by obtaining an average AUC of 0.74 and Balanced-accuracy of 0.70 on the HdG dataset, which is comparable to state-of-the-art (SOTA) results on other datasets. In this manner, we were also able to benchmark the novel HdG dataset as well as introduce a novel multi-annotator learning approach to understand each annotator’s relative strengths and weaknesses for emotion perception. Our evaluation results highlight the potential benefits of the novel multi-annotator learning approach in improving overall performance by resolving the problems arising from annotator-induced bias and variation in the perception of emotions. Complementing these results, we performed a further qualitative analysis of the HdG annotations with a psychologist to study the ambiguities found in the annotations. We conclude that the ambiguities in annotations may have resulted from a combination of several socio-psychological factors and systemic issues associated with the process of creating these annotations. As these problems are also present in most multi-modal emotion recognition datasets, we conclude that the domain could benefit from a set of annotation guidelines to create standardized datasets.
In dieser Arbeit wird eine von P. Ahlrichs und B. Dünweg entwickelte Methode [Ahlrichs und Dünweg, 1998] zur Simulation von Polymeren in Flüssigkeiten auf dem Cell-Prozessor implementiert. Dabei soll der Frage nachgegangen werden, wie performant der Cell-Processor in der Lage ist diese Simulation zu berechnen.
Zur Simulation der Polymere wird eine Molekular-Dynamik Simulation genutzt. Die Monomere der Polymerketten werden durch ein Kugel-Feder Modell gekoppelt. Die einzelnen Monomere der Polymere werden als einfache Punktteilchen betrachtet. Dies ermöglicht eine Interaktion der Monomere, unabhängig von deren Zeit- und Längenskalen, mit der Flüssigkeitssimulation durch Reibung. Die Flüssigkeit wird in dieser Arbeit durch die Lattice-Boltzmann-Methode simuliert.
Today publications are digitally available which enables researchers to search the text and often also the content of tables. On the contrary, images cannot be searched which is not a problem for most fields, but in chemistry most of the information are contained in images, especially structure diagrams. Next to the "normal" chemical structures, which represent exactly one molecule, there also exist generic structures, so called Markush structures. These contain variable parts and additional textual information which enable them to represent several molecules at once. This can vary between just a few and up to thousands or even millions. This ability lead to a spread of Markush structures in patents, because it enables patents to protect entire families of molecules at once. Next to the prevention of an enumeration of all structures it also has the advantage that, if a Markush structure is used in a patent, it is much harder to determine whether a specific structure is protected by it or not. To solve the question about the protection of a structure, it is necessary to search the patents. Appropriate databases for this task already do exist, but are filled manually. An automatic processing does not yet exist. In this project a Markush structure reconstruction prototype is developed which is able to reconstruct bitmaps including Markush structures (meaning a depiction of the structure and a text part describing the generic parts) into a digital format and save them in the newly developed context-free grammar based file format extSMILES. This format is searchable due to its context-free grammar based design. To be able to develop a Markush structure reconstruction prototype, an in depth analysis of the concept of Markush structures and their requirements for a reconstruction process was performed. Thereby it is stated, that the common connection table concept of the existing file formats is not able to store Markush structures. Especially challenging are conditions for most of the formats. Thus, a context-free grammar based file format is developed, which extends the SMILES format. This extSMILES called format assures the searchability of the results by its context-free grammar based concept, and is able to store all information contained in Markush structures. In addition it is generic, extendable and easily understandable. The developed prototype for the Markush structure reconstruction uses extSMILES as output format and is based on the chemical structure recognition tool chemoCR and the Unstructured Information Management Architecture UIMA. For chemoCR modules are developed which enable it to recognize and assemble Markush structures as well as to return the reconstruction result in extSMILES. For UIMA on the other hand, a pipeline is developed, which is able to analyse and translate the input text files to extSMILES. The results of both tools then are combined and presented in chemoCR. An evaluation of the prototype is performed on a representative set of twelve structures of interest and low image quality which contain all typical Markush elements. Trivial structures containing only one R-group are not evaluated. Due to the challenging nature of the images, no Markush structure could be correctly reconstructed. But by regarding the assumption, that R-group definitions which are described by natural language are excluded from the task, and under the condition that the core structure reconstruction is improved, the rate of success can be increased to 58.4%.
Augmented Reality (AR) findet heutzutage sehr viele Anwendungsbereiche. Durch die Überlagerung von virtuellen Informationen mit der realen Umgebung eignet sich diese Technologie besonders für die Unterstützung der Benutzer bei technischen Wartungs- oder Reparaturvorgängen. Damit die virtuellen Daten korrekt mit der realen Welt überlagert werden, müssen Position und Orientierung der Kamera durch ein Trackingverfahren ermittelt werden. In dieser Arbeit wurde für diesen Zweck ein markerloses, modellbasiertes Trackingsystem implementiert. Während einer Initialisierungs-Phase wird die Kamerapose mithilfe von kalibrierten Referenzbildern, sogenannten Keyframes, bestimmt. In einer darauffolgenden Tracking-Phase wird das zu trackende Objekt weiterverfolgt. Evaluiert wurde das System an dem 1:1 Trainingsmodell des biologischen Forschungslabors Biolab, welches von der Europäischen Weltraumorganisation ESA zur Verfügung gestellt wurde.
The recent explosion of available audio-visual media is the new challenge for information retrieval research. Audio speech recognition systems translate spoken content to the text domain. There is a need for searching and indexing this data which possesses no logical structure. One possible way to structure it on a high level of abstraction is by finding topic boundaries. Two unsupervised topic segmentation methods were evaluated with real-world data in the course of this work. The first one, TSF, models topic shifts as fluctuations in the similarity function of the transcript. The second one, LCSeg, approaches topic changes as places with the least overlapping lexical chains. Only LCSeg performed close to a similar real-world corpus. Other reported results could not be outperformed. Topic analysis based on the repeated word usage models renders topic changes more ambiguous than expected. This issue has more impact on the segmentation quality than the state-of-the-art ASR word error rate. It could be concluded that it is advisable to develop topic segmentation algorithms with real-world data to avoid potential biases to artificial data. Unlike evaluated approaches based on word usage analysis, methods operating with local contexts can be expected to perform better through emulation of semantic dependencies.
Das WebDAV-Protokoll (Web-based Distributed Authoring and Versioning) ermöglicht die Bearbeitung und Verwaltung von Dateien auf einem Web-Server. Aus technischer Sicht ist WebDAV eine Erweiterung des HTTP-Protokolls. Durch die rasche Zunahme und den steigenden Verbreitungsgrad von WebDAV-basierten Anwendungen, wie etwa Dokumentenmanagementsystemen, steigen auch die Anforderungen an deren Zuverlässigkeit. Die voll umfassende Unterstützung von Transaktionen, d.h. die Zusammenfassung einer Menge von Verarbeitungsschritten zu einer logischen Einheit, würde hierzu einen wichtigen Beitrag leisten. Die für Transaktionen geforderten Eigenschaften, die gleichzeitig auch deren Hauptvorteile darstellen, werden durch das bekannte Akronym ACID beschrieben, welches für Atomarität (atomicity), Konsistenz (consistency), Isoliertheit (isolation) und Dauerhaftigkeit (durability) steht. Zurzeit unterstützt das WebDAV-Protokoll allerdings nur die Punkte Konsistenz und Dauerhaftigkeit, eine komplette und vor allem standardkonforme Unterstützung der ACID-Eigenschaften von Transaktionen ist nicht gegeben. Im Rahmen dieser Arbeit wurde nun ein Transaktionsmodell für den WebDAVStandard erarbeitet. Das Modell ermöglicht es, eine Menge von Dateioperationen transaktionsbasiert durchzuführen. Das Modell unterstützt dabei zur Sicherstellung der Serialisierbarkeit sowohl optimistische als auch pessimistische Verfahren. Die Unterstützung des optimistischen Verfahrens wurde dabei von der IETF (Internet Engineering Task Force) als zulässiges und sinnvolles Vorgehen zur Realisierung von Transaktionen mittels WebDAV bestätigt. Für die pessimistischen Verfahren wurde im Rahmen dieser Arbeit aufgezeigt, wie die bestehenden Konzepte des WebDAV-Standards erweitert werden müssen, um dies ebenfalls umsetzen zu können. Um die getroffene Entwurfsentscheidung zu verifizieren, wurde eine prototypische Implementierung des Modells vorgenommen. Hierbei wurde, nach einer entsprechenden Evaluierung und Bewertung, die optimistische Nebenläufigkeitskontrolle umgesetzt. Clientseitig setzt die Implementierung auf der Jackrabit-Library auf, die serverseitige Implementierung verwendet als Grundlage den WebDAV-Server von Subversion.
Volumen Rendering ist ein eigenes Thema der Computergrafik und wurde in den letzten Jahren fortlaufend optimiert. Neben verschiedenen Ansätzen, die in Software implementiert sind, gibt es auch einige spezielle Methoden, die die Grafikhardware geeignet nutzen. 2003 wurde ein erstes Paper von J. Krüger und R. Westermann veröffentlicht, in dem eine Hardwareimplementierung eines Raycasting Volumen Renderers gezeigt wurde, ein Ansatz, der bislang nicht geeignet in Hardware umgesetzt werden konnte. Die Vorteile von diesem Ansatz bestehen in zwei Beschleunigungstechniken, die entweder bei fast opaken Darstellungen der Datensätze oder bei Darstellungen mit wenig sichtbaren Daten ausgespielt werden können.
Diese Arbeit zeigt und erläutert, neben der theoretischen Einführung in das Thema, die Implementierung eines interaktiven raycasting-basierten Volumen Renderers auf neuester Grafikhardware mit Hilfe von Shaderprogrammen. Wesentliche Schritte folgen der Veröffentlichung von J. Krüger und R. Westermann, welche aber viele Details und Problemstellen verschweigt. Die Ergebnisse werden mit einem 3D-Textur Volumenrenderverfahren verglichen, wobei durch charakteristische Testdatensätze die beiden Beschleunigungstechniken des Raycasters untersucht werden. Weil beide Techniken bei fast allen Datensätzen eine Beschleunigung des Rendervorgangs hervorrufen sollten, werden die erzielten Ergebnisse miteinander verglichen und kritisch besprochen, um zu beurteilen, ob das hier implementierte Verfahren schneller als das bisher oft verwendete 3D-Texturverfahren ist.
This master thesis describes a supervised approach to the detection and the identification of humans in TV-style video sequences. In still images and video sequences, humans appear in different poses and views, fully visible and partly occluded, with varying distances to the camera, at different places, under different illumination conditions, etc. This diversity in appearance makes the task of human detection and identification to a particularly challenging problem. A possible solution of this problem is interesting for a wide range of applications such as video surveillance and content-based image and video processing. In order to detect humans in views ranging from full to close-up view and in the presence of clutter and occlusion, they are modeled by an assembly of several upper body parts. For each body part, a detector is trained based on a Support Vector Machine and on densely sampled, SIFT-like feature points in a detection window. For a more robust human detection, localized body parts are assembled using a learned model for geometric relations based on Gaussians. For a flexible human identification, the outward appearance of humans is captured and learned using the Bag-of-Features approach and non-linear Support Vector Machines. Probabilistic votes for each body part are combined to improve classification results. The combined votes yield an identification accuracy of about 80% in our experiments on episodes of the TV series "Buffy the Vampire Slayer". The Bag-of-Features approach has been used in previous work mainly for object classification tasks. Our results show that this approach can also be applied to the identification of humans in video sequences. Despite the difficulty of the given problem, the overall results are good and encourage future work in this direction.
The introduction of gestures as a supplementary input modality has become of increasing interest to human computer interaction design, especially for 3D computer environments. This thesis describes the concepts and development of a gesture recognition system based on the machine learning technique of Hidden Markov Models. Well-known from the field of speech recognition, this statistical method is employed in this thesis to represent and recognize predefined gestures. Within this work, gestures are defined as symbols, such as simple geometric shapes or Roman letters. They are extracted from a stream of three-dimensional optical tracking data which is resampled, reduced to 2D and quantized to be used as input to discrete Hidden Markov Models. A set of prerecorded training data is used to learn the parameters of the models and recognition is achieved by evaluating the trained models. The devised system was used to augment an existing virtual reality prototype application which serves as a demonstration and development platform for the VRGeo consortium. The consortium's goal is to investigate and utilize the benefits of virtual reality technology for the oil and gas industry. An isolated test of the system with seven gestures showed accuracies of up to 98.57% and the review from experts in the fields of virtual reality and geophysics was predominantly positive.
Neural network based object detectors are able to automatize many difficult, tedious tasks. However, they are usually slow and/or require powerful hardware. One main reason is called Batch Normalization (BN) [1], which is an important method for building these detectors. Recent studies present a potential replacement called Self-normalizing Neural Network (SNN) [2], which at its core is a special activation function named Scaled Exponential Linear Unit (SELU). This replacement seems to have most of BNs benefits while requiring less computational power. Nonetheless, it is uncertain that SELU and neural network based detectors are compatible with one another. An evaluation of SELU incorporated networks would help clarify that uncertainty. Such evaluation is performed through series of tests on different neural networks. After the evaluation, it is concluded that, while indeed faster, SELU is still not as good as BN for building complex object detector networks.