Von PDF bis DOCX: hmmh macht TYPO3-Suche noch intelligenter
Bisher beschränkte sich die TYPO3-Suchmaschine „Apache SOLR“ auf Inhalte von Website-Texten. Dank der neuen Extension von hmmh ist es nun zusätzlich möglich, Inhalte aus hochgeladenen Dokumenten innerhalb einer Website zu finden. Damit erhalten Suchende sämtliche Informationen, die bisher in PDFs oder Word-Dateien verborgen blieben.
Mit seinen über 20 TYPO3-Entwicklern und Software-Architekten setzt hmmh seit über 10 Jahren erfolgreich TYPO3-Projekte um. Das Open Source Content Management System intelligenter zu machen sowie die Benutzung für Kunden zu vereinfachen, ist eine der obersten Devisen. In diesem Zuge entwickelten die Experten von hmmh eine TYPO3 Extension, die „Apache SOLR“, eine über ext-solr eingebundene Suchmaschine innerhalb des CMS, noch intelligenter macht. Mit dem „solr_file_indexer“ ist es möglich, Inhalte von zahlreichen Dokumentformaten samt ihrer Metadaten zu identifizieren und auszulesen. Die Extension unterstützt alle gängigen Formate, wie PDF, Microsoft Word und Microsoft Excel.
So funktioniert‘s
Für das Auslesen eines Dokuments wird das Toolkit „Apache Tika“ verwendet. „Tika“ ist in aktuellen Versionen der Suchmaschine „Apache SOLR“ bereits integriert, sodass keine weitere Einrichtung durch den Programmierer vorgenommen werden muss. Im Backend von TYPO3 können einzelne Dokumente ausgewählt werden, die dem Suchindex hinzugefügt werden sollen. Bei Multidomain-Installationen, also der Verwaltung mehrerer Websites über ein TYPO3-Backend, kann individuell entschieden werden, welches Dokument für welche Domains bereitgestellt werden soll. Neben dem Inhalt des Dokuments werden dabei auch Metadaten erfasst. Welche Felder genau in den Suchindex aufgenommen werden, wird einfach im „TypoScript“ konfiguriert.
hmmh mit vollem Engagement
Als TYPO3 Gold Member nimmt die Bremer Digitalagentur nicht nur an den TYPO3 Veranstaltungen teil, wie beispielsweise an den zahlreichen BarCamps oder Konferenzen in ganz Europa, sondern richtet auch selbst diverse TYPO3-Code-Sprints aus. So leistet hmmh immer wieder und auch zukünftig wertvolle Beiträge zur Weiterentwicklung und dem Ausbau der Sicherheit des Open Source Content Management Systems.
Alle weiteren Informationen gibt es auf GitHub.