Datenschutzerklärung|Data Privacy
Impressum

24.05.2011
S. Ewen

Diplom/Masterarbeit zu Recommendation Engines mit Machine Intelligence Techniken

Probabilistic Latent Semantic Indexing (PLSI) ist ein Algorithmus, der die Beziehung zwischen zusammen auftretenden Entitäten über so genannte latente ("versteckte") Variablen modelliert. Bei einem Corpus im Information Retrieval können so "Themen" gefunden werden, zusammen mit der Stärke ihrer Bindung zu Dokumenten und Termen. Wendet man PLSI auf eine Matrix von Bewertungen für Filme an, so liefert es einen Hinweis zu den wichtigsten Kriterien anhand derer die Nutzer diese Bewertungen abgegeben haben. Daher wird es typischerweise für Recommender Systeme verwendet, die Nutzern Vorschläge zu Artikeln oder Themen machen, die sie interessieren könnten.

Das Paper "Google News Personalization: Scalable Online Collaborative Filtering", in dem beschrieben wird, wie Google News seinen Nutzern Nachrichten empfiehlt, skizziert eine parallelisierte Version von PLSI auf Google's eigenem MapReduce-Framework. Der Algorithmus wird hierbei genutzt, um die Leser anhand ihrer Bindung zu den latenten Variablen zu clustern und daraufhin die neuesten im Cluster gelesenen Nachrichten an alle Mitglieder weiterzuempfehlen.

Ziel der ausgeschriebenen Arbeit ist es zu untersuchen, ob und wie sich diese parallele Version von PLSI mit Apache Hadoop und in Stratosphere (einem Open-Source Projekt aus der Berliner Unis) ausdrücken lässt und sie anschließend auf das Stratosphere-System zu portieren, wobei dieses eventuell dafür angepasst werden soll.

Erforderlich sind gute mathematische Kenntnisse sowie gute Programmier-Kenntnisse in Java.