KI 6 Min Lesezeit

KI-Suche auf der eigenen Website — Pagefind, Algolia AI und LLM-Ansätze

Klassische Volltextsuche reicht nicht mehr. Welche Optionen Du für semantische KI-Suche auf der eigenen Website hast — von Pagefind bis RAG — und was für KMU sinnvoll ist.

Bild: Agence Olloweb · Unsplash License

Thorsten Heß
Thorsten Heß MOLOTOW Web Development

Wenn ein Besucher auf Deiner Website sucht und nichts findet, ist er meistens weg. Die klassische Volltextsuche hat genau hier ihre Schwäche: Sie findet nur das, was exakt so auf der Seite steht. Wer „Kleid für einen Gartenempfang” tippt, bekommt nichts — obwohl ein perfektes Midikleid in der Kategorie „Sommer” existiert. KI-gestützte Suche versteht die Absicht hinter der Anfrage und findet auch, was nicht wortgleich dasteht. Das klingt nach Zukunft, ist aber in einfachen Ausprägungen schon lange im Jamstack-Alltag angekommen.

Wir sind MOLOTOW Web Development aus Lahr im Schwarzwald, geführt vom zertifizierten KI-Manager Thorsten Heß. In diesem Beitrag zeigen wir Dir die Optionen — von der schlanken statischen Lösung bis zum eigenen RAG-System — und sagen ehrlich, was für kleinere und mittlere Unternehmen Sinn ergibt.

Volltextsuche vs. semantische Suche — der Unterschied

Volltextsuche indexiert Wörter und findet sie wieder. Wer „Kleid” eingibt, bekommt Seiten, auf denen „Kleid” steht. Varianten, Synonyme und verwandte Begriffe sieht die Suche nicht, außer sie sind explizit im Index hinterlegt. Elasticsearch, Typesense, MeiliSearch, Lunr und Pagefind arbeiten in ihrer Grundkonfiguration so — mit jeweils unterschiedlich viel Zucker aussen rum (Tippfehler-Toleranz, Stemming, Boost-Regeln).

Semantische Suche arbeitet mit Vektoren. Jeder Text (und jede Suchanfrage) wird durch ein Embedding-Modell in einen mehrdimensionalen Zahlenvektor übersetzt. Zwei Texte, die inhaltlich ähnlich sind, liegen im Vektorraum nahe beieinander, auch wenn sie kein einziges Wort teilen. „Kleid für einen Gartenempfang” liegt neben „leichtes Midikleid, elegant, für Sommerfeste” — das passt, obwohl keins der Suchwörter im Produkttext steht.

In der Praxis laufen beide Ansätze oft parallel: Volltext für exakte Matches, semantisch für die Fälle, in denen der Nutzer anders formuliert als der Katalog.

Pagefind — die schlanke statische Lösung

Pagefind ist unser Standard für kleinere Websites und statische Sites. Der Index wird beim Build erzeugt, liegt als statische Dateien neben der Website und braucht keinen Server. Das Frontend laedt den Index on demand, kein Backend, kein Traffic bei einem externen Dienst, keine DSGVO-Frage. Wir nutzen Pagefind auf dieser Website selbst.

Stärken: Kostenlos, Open Source, extrem schnell, funktioniert komplett statisch, mehrsprachig, keine laufenden Kosten.

Grenzen: Klassische Volltextsuche, keine echte Semantik. Tippfehler und Stemming werden abgedeckt, aber eine Anfrage nach „Gartenempfang” findet keinen Text über „Sommerhochzeit”. Für Blogs, Dokumentationen und kleine Kataloge reicht das oft, für einen Shop mit 2.000 Produkten wird es duenn.

Für wen: Jamstack-Sites, Blogs, Dokumentationen, Unternehmens-Websites bis vielleicht 500 Unterseiten.

Algolia AI Search — die komfortable SaaS-Lösung

Algolia ist seit Jahren der Platzhirsch für gehostete Suchlsungen und hat 2024 eine Neural-Search-Schicht ergänzt, die semantisch und lexikalisch kombiniert. Du fuetterst Deine Inhalte per API in Algolia, der Dienst indexiert und stellt eine extrem schnelle Such-API bereit.

Stärken: Ausgereift, sehr schnell (Millisekunden), gute Relevanz-Steuerung, UI-Komponenten für alle gängigen Frameworks, neuronale Suche als Upgrade integriert.

Grenzen: Kostet Geld (Free-Tier bis 10.000 Records, ab dann preislich zuegig), Daten liegen beim Anbieter (DSGVO-Prüfung nötig), Abhängigkeit von einem SaaS.

Für wen: Shops ab etwa 2.000 Produkten, Portale mit viel Such-Traffic, Teams, die keine eigene Suchinfrastruktur pflegen wollen.

Eigener RAG mit Embeddings

Wer maximale Kontrolle und echte KI-Antworten will — nicht nur gefundene Seiten, sondern zusammengefasste Antworten — baut sich einen RAG-Stack (Retrieval-Augmented Generation). Wir haben das Vorgehen in unserem Beitrag RAG-Systeme Firmenwissen als Chatbot ausführlich beschrieben. Hier kurz: Inhalte werden in Chunks zerlegt, jedes Chunk bekommt ein Embedding, alles landet in einer Vektordatenbank (pgvector, Qdrant, Weaviate, Pinecone). Bei einer Suchanfrage wird das Query ebenfalls embedded, die ähnlichsten Chunks werden gezogen und einem Sprachmodell als Kontext übergeben. Die Antwort ist dann eine formulierte Aussage mit Quellen.

Stärken: Volle Kontrolle, DSGVO-freundlich bei EU-Hosting, beliebig erweiterbar (Chatbot, Recherchetool, Antwortmaschine).

Grenzen: Aufwändig in Aufbau und Pflege, laufende Kosten für Embedding- und LLM-Calls, braucht Monitoring gegen Halluzinationen.

Für wen: Unternehmen mit großer Wissensbasis, die eine echte Antwortfunktion brauchen — nicht „bitte scrolle zu dieser Seite”, sondern „hier ist die Antwort”.

Performance, Kosten und DSGVO im Vergleich

LösungEinmaligLaufendDSGVOTyp Antwort
Pagefindhalber Tag Setup0 EurounproblematischListe
MeiliSearch self-hosted1–2 Tage Setupab ~20 Euro HostingunproblematischListe
Algolia (Standard)halber Tag Setupab 0 Euro, schnell dreistelligAVV nötig, Daten ggf. USAListe
Algolia AI (Neural)1 Tag Setupmehrere Hundert Euro/MonatAVV nötigListe, semantisch
Eigener RAG5–15 Tage SetupAPI-Kosten + Hostingkontrollierbar, EU-Modelle möglichFormulierte Antwort

Die Zahlen sind Richtwerte und hängen vom Volumen ab. Bei RAG-Systemen dominieren die LLM-Kosten (OpenAI, Anthropic oder Mistral), die skalieren mit den Anfragen.

Unsere Empfehlung für KMU

Blog, Portfolio, Handwerks-Website, kleine Dokumentation: Pagefind, Punkt. Du hast eine schnelle, gute Suche, Kosten null, kein Datenschutzrisiko. Die meisten unserer Kundenprojekte fahren damit dauerhaft gut.

Shop mit 500–5.000 Produkten: MeiliSearch self-hosted oder Typesense. Beide bringen Tippfehler-Toleranz und Relevanz-Steuerung mit, laufen auf einem kleinen Server und liegen datenschutzrechtlich in Deiner Hand. Algolia ist schöner, aber teurer.

Shop jenseits 5.000 Produkte oder mit Such-intensivem Traffic: Algolia AI Search, wenn Budget da ist und die Datenschutzbewertung passt. Die Qualität ist einfach hoch und das Team spart sich laufende Wartung.

Wissensportal, Dokumentation, interne Recherche: Eigener RAG über pgvector plus Claude oder Mistral. Lohnt sich ab dem Punkt, wo Nutzer Fragen stellen und nicht nach Seiten suchen. Das ist eine andere Produktkategorie und rechtfertigt den Aufwand.

Häufige Fragen

Kann ich bei Pagefind semantische Elemente nachruesten?

Bedingt. Du kannst Synonyme pflegen und die Inhalte so anreichern, dass auch umschreibende Begriffe matchen („Gartenempfang” im Meta-Text eines Kleides). Echte semantische Ähnlichkeit bekommst Du damit nicht — dafür brauchst Du Embeddings.

Ist neuronale Suche auf kleinen Websites überhaupt sinnvoll?

Selten. Bei wenigen hundert Seiten findet auch die klassische Volltextsuche zuverlässig. Der Mehrwert von Embeddings zeigt sich ab dem Punkt, wo Nutzer Begriffe verwenden, die nicht wörtlich im Katalog stehen — das ist fast immer eine Frage der Größe und der Heterogenität der Inhalte.

Muss ich für eine KI-Suche meine Daten in die USA schicken?

Nein. OpenAI, Anthropic und Mistral bieten inzwischen EU-Regionen oder sind komplett europaeisch gehostet. Für Embeddings gibt es zudem Open-Source-Modelle (BGE, E5, gte), die Du komplett lokal laufen lassen kannst. Der Datenschutz-Blocker ist heute kein Blocker mehr, wenn die Architektur von Anfang an entsprechend geplant ist.

Wie messe ich, ob sich die bessere Suche lohnt?

Miss drei Zahlen: Anteil der Suchanfragen, die kein Ergebnis liefern (Zero-Result-Rate), Absprungrate nach einer Suche, und bei Shops die Conversion nach Such-Einsatz. Eine gute Suche senkt Zero-Result und Absprung und erhöht Conversion — das sind die drei Kennzahlen, die die Investition rechtfertigen.

Fazit

Es gibt nicht die eine richtige Suche, sondern eine für Deinen Fall passende. Für die meisten KMU-Websites reicht Pagefind, für größere Kataloge MeiliSearch oder Algolia, und für echte Frage-Antwort-Szenarien ist RAG die richtige Ecke. Wer vermutet, dass seine Nutzer an der Suche verloren gehen, sollte messen, bevor er ein Projekt aufsetzt — oft zeigen die Daten schon einen klaren Gewinner. Wenn Du Hilfe bei der Bewertung und Umsetzung brauchst, melde Dich über unser Kontaktformular oder komm in eine KI-Beratung.

Beitrag teilen
Thorsten Heß — Gründer MOLOTOW Web Development

Über den Autor

Thorsten Heß

Gründer · MOLOTOW Web Development

Seit über 20 Jahren beschäftige ich mich mit dem Web — von der ersten handgeschriebenen HTML-Seite bis zu komplexen KI-gestützten Plattformen. Bei MOLOTOW Web Development in Lahr entwickeln wir für kleine wie für mittelständische Unternehmen Lösungen, die nicht nur gut aussehen, sondern auch nach Jahren noch wartbar sind. Seit 2024 ergänzen wir unser Portfolio um zertifizierte KI-Beratung nach dem EU AI Act. Wenn Du eine Idee, ein Problem oder nur eine kurze Frage hast — schreib uns.