Transcript PPT
SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1 Agenda Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned 2 Aufgabe/Problem Vorgehen Solr konfigurieren Einarbeitung ➔ Apache Solr ➔ Springer Core ➔ Spring MVC ➔ Author Core ➔ Junit /Mockito ➔ VirtualBox ➔ Anpassung der Konfigurationsdat eien Datenimport ➔ Indexierung von Beispieldokumenten ➔ MESH anbinden Suche ➔ Suchseite ➔ InstantSearch ➔ Highlighting ➔ Suggestion ➔ Kombination der Cores ➔ Synonyme Goldstandard ➔ Example Queries von Biomedcentral ➔ Suchergebnisse Messen mittels Mean Reciprocal Rank ➔ Visuelle Darstellung des Goldstandards ➔ laden Goldstandard 4 DEMO 5 Methodik Indizierung * Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration - XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert * Während der Indizierung copyFields für Suggester aufbauen - Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt Struktur der Indizierung: * Highlighting in Standart-Solr-Konfiguration vorhanden - Probleme mit Implementierung der hintereinander geschalteten Cores AuthorGroup GivenName FamilyName AuthorName Author Core Article Title Article SubTitle Token + Synonym Springer Core ... 6 Methodik Synonyme Breasts Tumor Cancer of Breast, Breast Cancer Breast Cancer of Query Query Analyser Synonyme Index Analyser Cancer of Breast 7 Methodik Datenstruktur/Gold SearchQuery “cancer” SearchResultsMap Map(docid,pos) SearchResults Map(SearchQuery,SearchResults) SearchQueryExecution (SearchResults,SearchResults) Calculate Mean Reciprocal Rank Gold Result Search Result Metric Table 8 Ergebnis Goldstandart - Testframework auf Basis von Spring MVC Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissen zu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden. Indizierung der A++ Struktur Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt. SolrSuggester, InstantSearch, Autocomplete Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden 9 Ergebnis Virtualbox * Virtualbox - Image - funktionsfähige Umgebung - Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen) - Auslieferung als .rar oder auch auf DVD möglich Bereitgestellte Dokumente how to setup virtualbox containing our solution https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29 how to setup project locally without virtualbox https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20project Info-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing 10 Weiterführung ● Highlighting für Synonyme implementieren ● Goldstandard vervollständigen durch gezieltere Datenanalyse ● Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework) ● Authoren-Namen-Importfilter weiter optimieren ● Synoymen Multi Wildcards ● Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können. 11 Lessons Learned ● Apache Solr und Spring-Applikation in getrennten Repositories versionieren ● Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung. ● wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen 12