KI-Suche auf der eigenen Website — Pagefind, Algolia AI und LLM-Ansätze
Klassische Volltextsuche reicht nicht mehr. Welche Optionen Du für semantische KI-Suche auf der eigenen Website hast — von Pagefind bis RAG — und was für KMU sinnvoll ist.
Bild: Agence Olloweb · Unsplash License
Wenn ein Besucher auf Deiner Website sucht und nichts findet, ist er meistens weg. Die klassische Volltextsuche hat genau hier ihre Schwäche: Sie findet nur das, was exakt so auf der Seite steht. Wer „Kleid für einen Gartenempfang” tippt, bekommt nichts — obwohl ein perfektes Midikleid in der Kategorie „Sommer” existiert. KI-gestützte Suche versteht die Absicht hinter der Anfrage und findet auch, was nicht wortgleich dasteht. Das klingt nach Zukunft, ist aber in einfachen Ausprägungen schon lange im Jamstack-Alltag angekommen.
Wir sind MOLOTOW Web Development aus Lahr im Schwarzwald, geführt vom zertifizierten KI-Manager Thorsten Heß. In diesem Beitrag zeigen wir Dir die Optionen — von der schlanken statischen Lösung bis zum eigenen RAG-System — und sagen ehrlich, was für kleinere und mittlere Unternehmen Sinn ergibt.
Volltextsuche vs. semantische Suche — der Unterschied
Volltextsuche indexiert Wörter und findet sie wieder. Wer „Kleid” eingibt, bekommt Seiten, auf denen „Kleid” steht. Varianten, Synonyme und verwandte Begriffe sieht die Suche nicht, außer sie sind explizit im Index hinterlegt. Elasticsearch, Typesense, MeiliSearch, Lunr und Pagefind arbeiten in ihrer Grundkonfiguration so — mit jeweils unterschiedlich viel Zucker aussen rum (Tippfehler-Toleranz, Stemming, Boost-Regeln).
Semantische Suche arbeitet mit Vektoren. Jeder Text (und jede Suchanfrage) wird durch ein Embedding-Modell in einen mehrdimensionalen Zahlenvektor übersetzt. Zwei Texte, die inhaltlich ähnlich sind, liegen im Vektorraum nahe beieinander, auch wenn sie kein einziges Wort teilen. „Kleid für einen Gartenempfang” liegt neben „leichtes Midikleid, elegant, für Sommerfeste” — das passt, obwohl keins der Suchwörter im Produkttext steht.
In der Praxis laufen beide Ansätze oft parallel: Volltext für exakte Matches, semantisch für die Fälle, in denen der Nutzer anders formuliert als der Katalog.
Pagefind — die schlanke statische Lösung
Pagefind ist unser Standard für kleinere Websites und statische Sites. Der Index wird beim Build erzeugt, liegt als statische Dateien neben der Website und braucht keinen Server. Das Frontend laedt den Index on demand, kein Backend, kein Traffic bei einem externen Dienst, keine DSGVO-Frage. Wir nutzen Pagefind auf dieser Website selbst.
Stärken: Kostenlos, Open Source, extrem schnell, funktioniert komplett statisch, mehrsprachig, keine laufenden Kosten.
Grenzen: Klassische Volltextsuche, keine echte Semantik. Tippfehler und Stemming werden abgedeckt, aber eine Anfrage nach „Gartenempfang” findet keinen Text über „Sommerhochzeit”. Für Blogs, Dokumentationen und kleine Kataloge reicht das oft, für einen Shop mit 2.000 Produkten wird es duenn.
Für wen: Jamstack-Sites, Blogs, Dokumentationen, Unternehmens-Websites bis vielleicht 500 Unterseiten.
Algolia AI Search — die komfortable SaaS-Lösung
Algolia ist seit Jahren der Platzhirsch für gehostete Suchlsungen und hat 2024 eine Neural-Search-Schicht ergänzt, die semantisch und lexikalisch kombiniert. Du fuetterst Deine Inhalte per API in Algolia, der Dienst indexiert und stellt eine extrem schnelle Such-API bereit.
Stärken: Ausgereift, sehr schnell (Millisekunden), gute Relevanz-Steuerung, UI-Komponenten für alle gängigen Frameworks, neuronale Suche als Upgrade integriert.
Grenzen: Kostet Geld (Free-Tier bis 10.000 Records, ab dann preislich zuegig), Daten liegen beim Anbieter (DSGVO-Prüfung nötig), Abhängigkeit von einem SaaS.
Für wen: Shops ab etwa 2.000 Produkten, Portale mit viel Such-Traffic, Teams, die keine eigene Suchinfrastruktur pflegen wollen.
Eigener RAG mit Embeddings
Wer maximale Kontrolle und echte KI-Antworten will — nicht nur gefundene Seiten, sondern zusammengefasste Antworten — baut sich einen RAG-Stack (Retrieval-Augmented Generation). Wir haben das Vorgehen in unserem Beitrag RAG-Systeme Firmenwissen als Chatbot ausführlich beschrieben. Hier kurz: Inhalte werden in Chunks zerlegt, jedes Chunk bekommt ein Embedding, alles landet in einer Vektordatenbank (pgvector, Qdrant, Weaviate, Pinecone). Bei einer Suchanfrage wird das Query ebenfalls embedded, die ähnlichsten Chunks werden gezogen und einem Sprachmodell als Kontext übergeben. Die Antwort ist dann eine formulierte Aussage mit Quellen.
Stärken: Volle Kontrolle, DSGVO-freundlich bei EU-Hosting, beliebig erweiterbar (Chatbot, Recherchetool, Antwortmaschine).
Grenzen: Aufwändig in Aufbau und Pflege, laufende Kosten für Embedding- und LLM-Calls, braucht Monitoring gegen Halluzinationen.
Für wen: Unternehmen mit großer Wissensbasis, die eine echte Antwortfunktion brauchen — nicht „bitte scrolle zu dieser Seite”, sondern „hier ist die Antwort”.
Performance, Kosten und DSGVO im Vergleich
| Lösung | Einmalig | Laufend | DSGVO | Typ Antwort |
|---|---|---|---|---|
| Pagefind | halber Tag Setup | 0 Euro | unproblematisch | Liste |
| MeiliSearch self-hosted | 1–2 Tage Setup | ab ~20 Euro Hosting | unproblematisch | Liste |
| Algolia (Standard) | halber Tag Setup | ab 0 Euro, schnell dreistellig | AVV nötig, Daten ggf. USA | Liste |
| Algolia AI (Neural) | 1 Tag Setup | mehrere Hundert Euro/Monat | AVV nötig | Liste, semantisch |
| Eigener RAG | 5–15 Tage Setup | API-Kosten + Hosting | kontrollierbar, EU-Modelle möglich | Formulierte Antwort |
Die Zahlen sind Richtwerte und hängen vom Volumen ab. Bei RAG-Systemen dominieren die LLM-Kosten (OpenAI, Anthropic oder Mistral), die skalieren mit den Anfragen.
Unsere Empfehlung für KMU
Blog, Portfolio, Handwerks-Website, kleine Dokumentation: Pagefind, Punkt. Du hast eine schnelle, gute Suche, Kosten null, kein Datenschutzrisiko. Die meisten unserer Kundenprojekte fahren damit dauerhaft gut.
Shop mit 500–5.000 Produkten: MeiliSearch self-hosted oder Typesense. Beide bringen Tippfehler-Toleranz und Relevanz-Steuerung mit, laufen auf einem kleinen Server und liegen datenschutzrechtlich in Deiner Hand. Algolia ist schöner, aber teurer.
Shop jenseits 5.000 Produkte oder mit Such-intensivem Traffic: Algolia AI Search, wenn Budget da ist und die Datenschutzbewertung passt. Die Qualität ist einfach hoch und das Team spart sich laufende Wartung.
Wissensportal, Dokumentation, interne Recherche: Eigener RAG über pgvector plus Claude oder Mistral. Lohnt sich ab dem Punkt, wo Nutzer Fragen stellen und nicht nach Seiten suchen. Das ist eine andere Produktkategorie und rechtfertigt den Aufwand.
Häufige Fragen
Kann ich bei Pagefind semantische Elemente nachruesten?
Bedingt. Du kannst Synonyme pflegen und die Inhalte so anreichern, dass auch umschreibende Begriffe matchen („Gartenempfang” im Meta-Text eines Kleides). Echte semantische Ähnlichkeit bekommst Du damit nicht — dafür brauchst Du Embeddings.
Ist neuronale Suche auf kleinen Websites überhaupt sinnvoll?
Selten. Bei wenigen hundert Seiten findet auch die klassische Volltextsuche zuverlässig. Der Mehrwert von Embeddings zeigt sich ab dem Punkt, wo Nutzer Begriffe verwenden, die nicht wörtlich im Katalog stehen — das ist fast immer eine Frage der Größe und der Heterogenität der Inhalte.
Muss ich für eine KI-Suche meine Daten in die USA schicken?
Nein. OpenAI, Anthropic und Mistral bieten inzwischen EU-Regionen oder sind komplett europaeisch gehostet. Für Embeddings gibt es zudem Open-Source-Modelle (BGE, E5, gte), die Du komplett lokal laufen lassen kannst. Der Datenschutz-Blocker ist heute kein Blocker mehr, wenn die Architektur von Anfang an entsprechend geplant ist.
Wie messe ich, ob sich die bessere Suche lohnt?
Miss drei Zahlen: Anteil der Suchanfragen, die kein Ergebnis liefern (Zero-Result-Rate), Absprungrate nach einer Suche, und bei Shops die Conversion nach Such-Einsatz. Eine gute Suche senkt Zero-Result und Absprung und erhöht Conversion — das sind die drei Kennzahlen, die die Investition rechtfertigen.
Fazit
Es gibt nicht die eine richtige Suche, sondern eine für Deinen Fall passende. Für die meisten KMU-Websites reicht Pagefind, für größere Kataloge MeiliSearch oder Algolia, und für echte Frage-Antwort-Szenarien ist RAG die richtige Ecke. Wer vermutet, dass seine Nutzer an der Suche verloren gehen, sollte messen, bevor er ein Projekt aufsetzt — oft zeigen die Daten schon einen klaren Gewinner. Wenn Du Hilfe bei der Bewertung und Umsetzung brauchst, melde Dich über unser Kontaktformular oder komm in eine KI-Beratung.