Nová verze vyhledávání Seznamu na konci srpna
Na konci srpna by měla být do ostrého provozu uvedena nová verze vyhledávání Seznam.cz. Změna spočívá ve způsobu uložení slov v indexu hledání.
Na testovacím místě (http://searchtest.seznam.cz) si již teď mohou zájemci vyzkoušet připravovanou verzi fulltextového vyhledávání.
Na blogu fulltextového týmu se píše, že připravovaná verze byla cílena hlavně na změnu technologie, nicméně projevila se i na některých výsledcích. Cílem to ale nebylo.
Dříve jsme měli v databázi uložená tzv. „lemmata“ – tj. základní tvar každého zaindexovaného slova. Výhodou bylo jednodušší vyhodnocování dotazů, protože se pro každé slovo hledalo jedno lemma a ne množství různých tvarů. Toto byla paradoxně i největší nevýhoda – nebylo možné rozlišovat tvary jednoho slova, což se zvláště negativně projevovalo u slov jejichž některý tvar kolidoval s jiným dotazem.
Nové zpracování oproti tomu ukládá do databáze všechna slova v takovém tvaru, tak jak se přesně vyskytují na stránce a následně pak rozšiřuje slova dotazu o možné tvary. Vyhodnocení je o něco náročnější, ale umožňuje řídit jak se které slovo má přesně vyhledat.
K dokončení přesunu na novou technologii bude potřeba reindexovat všechny stránky. Podle reakcí pod odkazovaným článkem Seznamu jsou navíc náhodní testeři s novými výsledky spokojeni a vnímají ji jako změnu k lepšímu.
Autor: Luboš Kudláček
Provozovatel Netzinu, autor knihy o WordPressu, publicista, blogger. Více na LubosKudlacek.cz