Rozšířené vyhledávání a jazyk dotazu. Jazyk vyhledávače

Jazyk dotazu je uměle vytvořený programovací jazyk používaný k dotazování v databázích a informačních systémech.

Obsah

Databáze
Vyhledávače
Jak jsou vyhledávací dotazy klasifikovány?
Jak se provádí vyhledávání informací?
Vlastnosti vlastních akcí
Distribuce frekvenčních dotazů
Strukturované dotazy
Co je pokročilé vyhledávání?
Jak se čtou znaky jazyka dotazu?
Syntaxe
Parametry vlastního vyhledávání

dotazovací jazyk

Obecně lze takovéto metody dotazu klasifikovat podle toho, zda slouží k databázi nebo ke získání informací. Rozdíl je v tom, že žádosti o takové služby se zavazuje poskytnout faktické odpovědi na tyto otázky, zatímco vyhledávač se snaží najít dokumenty, které obsahují informace vztahující se k uživateli má zájem v této oblasti.

Databáze

Jazyky dotazu pro databáze obsahují následující příklady:

QL - objektově orientované, odkazuje se na relační databáze - nástupce společnosti Datalog.
Kontextová (CQL) je formální jazyk reprezentace dotazu pro systémy pro vyhledávání informací (například webové indexy nebo bibliografické adresáře).
CQLF (CODYASYL) - pro databáze CODASYL-TYPE.
Kontextově orientovaný jazyk dotazu (COQL) se používá v odpovídajících modelech (com). Je založen na principech modelování dat a využívá takové operace jako projekce a de-projekce multidimenzionální analýzy, analytické operace a závěry.
DMX - používá se pro modely dolování dat.
Datalog je jazyk dotazů k deductivním databázím.
Gellish English je jazyk, který lze použít pro dotazy v Gellish English databázích a umožňuje provádět dialogy (dotazy a odpovědi) a slouží také pro informační modelování znalostí.
HTSQL - překládá požadavky http na SQL.
ISBL - používá se pro PRTV (jedna z prvních relačních systémy správy databází).
LDAP je protokol pro požadavky a adresářové služby, které běží přes protokol TCP / IP.
Pro OLAP databáze je vyžadován MDX.

Yandex dotazovací jazyk

Vyhledávače

Jazyk vyhledávacích dotazů je naopak zaměřen na vyhledávání dat ve vyhledávačích. To se liší tím, že požadavky často obsahují prostý text nebo hypertext s další syntax (například "a" / "nebo"). Významně se liší od standardních podobných jazyků, které jsou regulovány přísnými pravidly příkazové syntaxe nebo obsahují poziční parametry.

Jak jsou vyhledávací dotazy klasifikovány?

Existují tři široké kategorie, které pokrývají většinu vyhledávacích dotazů: informace, navigace a transakce. Ačkoli tato klasifikace nebyla teoreticky stanovena, byla empiricky potvrzena přítomností skutečných dotazů ve vyhledávačích.

Požadavky na informace jsou ty, které pokrývají široké témata (například konkrétní město nebo model nákladního automobilu), pro které lze získat tisíce relevantních výsledků.

Navigace - jde o dotazy, které vyhledávají jeden web nebo jednu stránku na konkrétní téma (například YouTube).

jazyk vyhledávacích dotazů

Transakční - odráží záměr uživatele provést určitou akci, například zakoupit si auto nebo rezervovat jízdenku.

Vyhledávače často podporují čtvrtý typ dotazu, který se používá mnohem méně často. Jedná se o tzv. Žádosti o připojení, které obsahují přehled o propojení indexované webové grafiky (počet odkazů na určitou adresu URL nebo kolik stránek je indexováno z konkrétní domény).

Jak se provádí vyhledávání informací?

Většina vyhledávacích zdrojů nezveřejňuje jejich protokoly vyhledávání, takže informace o tom, co hledají uživatelé na webu, je velmi obtížné najít. Nicméně první vědecký výzkum se objevil v roce 1998. Později byl v roce 2001 proveden následný průzkum, který analyzoval dotazy, které byly zobrazeny jako velmi relevantní. Také bylo jasné, jak vyhledávací roboty dotazovací jazyk.

Zajímavé rysy týkající se vyhledávání na webu se staly známé:

Průměrná délka vyhledávacího dotazu byla 2,4 slov.

Asi polovina uživatelů odeslala jednu žádost a méně než třetina uživatelů provedla tři nebo více jedinečných dotazů jeden po druhém.
Téměř polovina uživatelů viděla pouze první nebo dvě stránky výsledků.
Méně než 5% uživatelů využívá možnosti pokročilého vyhledávání (například výběr určitých kategorií nebo vyhledávání ve vyhledávání).

Vlastnosti vlastních akcí

Studie také ukázala, že 19% dotazů obsahuje zeměpisné označení (například jména, poštovní směrovací čísla, zeměpisné objekty apod.). Za zmínku stojí také to, že kromě krátkých dotazů (tj. S několika podmínkami) byly často přítomny předvídatelné schémata, podle nichž uživatelé měnili své vyhledávací fráze.

logický jazyk dotazu

Bylo také zjištěno, že 33% požadavků od jednoho uživatele se opakuje a v 87% případů uživatel klikne na stejný výsledek. To naznačuje, že mnoho uživatelů používá opakované žádosti o kontrolu nebo opětovné vyhledávání informací.

Distribuce frekvenčních dotazů

Kromě toho odborníci potvrdili, že frekvenční rozdělení dotazů odpovídá zákonu o výkonu. To znamená, že malá část klíčové slovo vyskytuje v největší seznamu dotazů (například více než 100 milionů), a jsou nejčastěji používány. Zbývající fráze ve stejných subjektech se používají méně často a individuálně. Tento jev se nazývá Pareto princip (nebo "pravidlo 80-20") a umožnilo vyhledávačům používat optimalizační metody, jako je indexování nebo rozdělování databází, ukládání do mezipaměti a proaktivní načítání, a také umožnilo vylepšit vyhledávací jazyk vyhledávače.

V posledních letech bylo zjištěno, že průměrná délka dotazu se v průběhu času postupně zvyšuje. Takže průměrný dotaz v angličtině byl delší. V tomto ohledu, Google zavedl aktualizaci s názvem „Hummingbird“ (srpen 2013), který je schopen zvládnout dlouhé vyhledávací dotazy s žádným protokolem „mluví“ dotazovací jazyk (například „Kde je nejbližší obchod s kávou?“).

požadavek v angličtině

Pro delší dotazy se používá jejich zpracování - jsou rozděleny na fráze formulované ve standardním jazyce a odpovědi na jednotlivé části se zobrazují samostatně.

Strukturované dotazy

Vyhledávače, které podporují logické operace a syntaxi, použijte rozšířené jazyky dotazu. Uživatel, který vyhledává dokumenty pokrývající několik témat nebo tváří, může každý z nich popsat logickou charakteristikou slova. Ve svém jádru je jazyk logického dotazu sbírkou konkrétních frází a interpunkčních znamének.

Co je pokročilé vyhledávání?

Jazyk dotazu "Yandex" a "Google" je schopen provést přesnější vyhledávání za určitých podmínek. Pokročilé vyhledávání může vyhledávat část názvu stránky nebo předpony záhlaví, jakož i některé kategorie a seznamy jmen. Může také omezit vyhledávání stránek, které obsahují konkrétní slova v názvu nebo jsou v určitých skupinách témat. Při správném použití dotazovací jazyk zvládne parametry řádově složitější než povrch vydávání většiny vyhledávačů, včetně uživatelem definovaných slov do konce proměnné a stejný pravopisu. Po zobrazení výsledků pokročilého vyhledávání se zobrazí odkaz na příslušné části stránky.

jazyk vyhledávače

Je také možné hledat všechny stránky obsahující konkrétní frázi, zatímco se standardním dotazem, vyhledávače nemohou zastavit na žádné stránce diskuze. V mnoha případech může jazyk dotazu vést k jakékoli stránce umístěné ve značkách noindex.

V některých případech dobře vytvořený dotaz umožňuje najít informace, které obsahují řadu speciálních znaků a písmen od jiných abecedy (čínština například hieroglyfy).

Jak se čtou znaky jazyka dotazu?

Horní a malá písmena, stejně jako některá diakritická znaménka (umlauts and accents) nejsou zahrnuty do vyhledávání. Například vyhledání klíčového slova Citroen nenalezne stránky obsahující slovo "Citroen". Ale některé ligatury odpovídají jednotlivým dopisům. Například hledání slova "aeroskop" snadno vyhledá stránky obsahující "Ereskebing" (AE = Æ).

Mnoho nealfanumerických znaků je neustále ignorováno. Například není možné nalézt informace o dotazu obsahujícím řetězec | L | (písmeno mezi dvěma svislými pruhy), přestože tento symbol je použit v některých šablonách konverze. Pouze údaje z LT budou ve výsledcích. Některé symboly a fráze jsou řešeny různými způsoby: dotaz „půjčky (finance)“ zobrazuje článek s slov „úvěr“ a „finance“, ignoruje závorky, a to i v případě, že je výrobek s přesným názvem „credit (finance)“.

dotazovací jazyky pro databáze

Existuje mnoho funkcí, které lze použít s jazykem dotazu.

Syntaxe

Jazyk dotazu "Yandex" a "Google" může používat některé interpunkční znaménky pro upřesnění vyhledávání. Křivé závorky jsou například {{search}}. Fráze, která je v nich obsažena, bude prohledána zcela bez změn.

Fráze v uvozovkách umožňuje určit objekt vyhledávání. Například citované slovo bude rozpoznáno jako obrazové nebo fiktivní, bez citací - jako informace o dokumentárnější povaze.

Navíc všechny hlavní vyhledávače podporují znak ";" pro logické "ne", stejně jako a / nebo. Výjimkou jsou výrazy, které nelze oddělit pomocí pomlčky nebo předčíslí pomlčky.

Nesprávná korespondence vyhledávací fráze je označena symbolem ~. Například pokud si nepamatujete přesné znění výrazu nebo názvu, můžete jej zadat ve vyhledávacím řetězci se zadaným znakem a budete moci získat výsledky s největší podobností.

Parametry vlastního vyhledávání

K dispozici jsou také vyhledávací parametry jako intitle a incategory. Jsou to filtry, které se zobrazují přes dvojtečkou, ve tvaru "filtr: dotazovací řetězec". Řetězec dotazu může obsahovat hledaný výraz nebo frázi nebo částečný nebo úplný název stránky.

Funkce "intitle: query" dává přednost výsledku vyhledávání podle názvu, ale také zobrazuje obvyklé výsledky obsahu titulu. Několik takových filtrů lze použít současně. Jak využít tuto příležitost?

Žádost o typ "intitle: název letiště" bude obsahovat všechny články obsahující název letiště v názvu. Pokud jej formulujete jako "parkování intitle: název letiště", obdržíte v názvu název zboží s názvem letiště a v textu uveďte parkování.

Filtrování vyhledávání "Kategorie: Kategorie" pracuje na principu počátečního vydání článků patřících do určité skupiny nebo seznamu stránek. Například vyhledávací dotaz typu "Temples incategory: History" bude obsahovat výsledky o historii chrámů. Tato funkce může být také použita jako rozšířená, nastavením různých parametrů.

Sdílet na sociálních sítích:

Podobné