Vyhledávání - Web 2.0
Sémantický web - vyhledávací stroje
Vyhledávací stroje jakpro sémantický web, tak pro „normální“ web jsou si na nejvyšší úrovni velmi podobné: získávání a vytěžování dokumentů; zpracování dotazů od uživatelů a agentů; řazení výsledků vyhledávání; archivace dokumentů; nabízet rozhraní jak pro uživatele, tak aplikační rozhraní pro software.
Odlišnosti vyhledávání v sémantickém webu mají více příčin:
Posláním sémantického webu je mj. strojové zpracování obsahu, proto použité značkování či anotování může dobře posloužit při konstrukci agentské vrstvy mezi uživatelem a vyhledávacím strojem.
Znalosti, které jsou zachyceny např. pomocí RDF, se liší jak od převážně nestrukturovaných dokumentů běžného webu, tak od dobře strukutovaných informací v databázích (např. relačního typu). Takto semistrukturované informace vyžadují kombinaci technik pro efektivní indexování a vyhledávání
Jeden dokument sémantického webu může být směsicí konkrétních faktů, tříd a definic vlastností, logických omezení a metadat. Plné porozumění dokumentu pak vyžaduje určitou míru odvozování, což je nutně vyžadováno také od vyhledávacího stroje. Toto odvozování může produkovat nová fakta, omezení a metadata, která mohou být přínosná pro indexování. Konvenční vyhledávací stroje se o porozumění obsahu dokumentů nesnaží, protože se jedná o obtížnou úlohu a vyžaduje výzkum v oblasti porozumění textu.
Významně se rovněž liší struktura grafu, která je daná kolekcí dokumentů tvořících sémantický web, od grafu plynoucího z hypertextových odkazů běžných webových dokumentů. Tento rozdíl ovlivňuje jak strategii pro automatizované získávání dokumentů, tak způsob určení metrik pro řazení jejich významnosti.
Při vyhledávání porovnává vyhledávací stroj dotazy vůči datům, která vzešla z indexování. Zatímco výsledkem u webových vyhledávacích strojů jsou dokumenty, výsledky vyhledávací stroje sémantického webu mohou poskytovat i více než prostý dokument – lze agregovat data na více úrovních, počínaje univerzálním grafem všech RDF dat na webu až k jednotlivému RDF tripletu
Autor: Radim Gál