Metoda nejbližšího souseda: příklad práce

nejbližšího souseda metoda je nejjednodušší metrický třídič, který je založen na vyhodnocení podobnosti různých objektů.

Obsah

Hypotéza metody
Specifičnost metodologie nejbližších sousedů
Technika vážených sousedů
Kompaktní hypotéza
Základní vzorec
Určení počtu sousedů k
Zrušení emisí
Použití extra velkých vzorků
Pravidla pro výběr metodiky
Závěr

Analyzovaný objekt je odkazován na třídu, do které předměty výcvikového vzorku patří. Zjistíme, jaká je metoda nejbližšího souseda. Pokusme se pochopit tento složitý problém, ukážeme příklady různých technik.

metoda souseda

Hypotéza metody

Metoda nejbližšího souseda může být považována za nejběžnější algoritmus používaný pro klasifikaci. Objekt, který prochází klasifikací, patří do třídy y_i, ke které patří nejbližší objekt výcvikového vzorku x_i.

Specifičnost metodologie nejbližších sousedů

K nejbližšího souseda metoda může zlepšit přesnost klasifikace. Jednotlivé prvky patří do stejné skupiny jako hlavní část jeho sousedů, to znamená, že k v blízkosti se objekty z analyzovaného vzorku x_i. Při řešení problémů s dvěma třídami počtu sousedů bude lichý, aby se zabránilo situaci nejednoznačnosti, pokud je stejný počet sousedů bude patřit do různých tříd.

příklad metody souseda

Technika vážených sousedů

Postgresqlova metoda nejbližšího sousedního tsvectoru se používá, když počet tříd není menší než tři, a divné nelze použít. Ale v těchto případech vzniká nejednoznačnost. Pak i-soused dostane váhu w_i, která s rostoucím stupněm sousedu klesá. Objekt se týká třídy, která bude mít maximální váhu mezi blízkými sousedy.

příklad metody souseda

Kompaktní hypotéza

Jádrem všech výše uvedených metod je hypotéza kompaktnosti. Zahrnuje souvislost mezi mírou podobnosti objektů a jejich zařazením do jedné třídy. V této situaci, hranice mezi jednotlivými typy je jednoduchá forma, a vytvořit tříd objektů ve vesmíru kompaktní mobilní oblasti. V rámci těchto domén v matematické analýze je obvyklé znamenat uzavřené ohraničené množiny. Tato hypotéza nesouvisí s každodenním vnímáním tohoto slova.

Základní vzorec

Pojďme prozkoumat více nejbližšího souseda. V případě, že navrhovaný učení druh vzorku „objekt odezvy» X ^ m = {(x 1, y_1), tečky, (x_m, y_m) } - pokud je nastavena vzdálenost funkce rho (x, x ‚) pro větší počet objektů, které reprezentován jako adekvátní modelové podobnosti objektů zvýšením hodnoty funkce snižuje podobnost mezi objekty x, x‘.

Pro každý objekt u budeme konstruovat objekty výcvikového vzorku x_i jako vzdálenosti k u zvýšení:

Rho (u, x_ {1- u}) leq rho (u, x_ {2- u}) leq cdots leq rho (u, x_ {m- u}),

kde x_ {i-u} charakterizuje výcvikový vzorkový objekt, který je i sousedním objektem původního objektu u. Tuto notaci použijeme pro odpověď na i-té souseda: y_ {i-u}. Výsledkem je, že libovolný objekt u vyvolává změnu číslování vlastního vzorku.

metoda nejbližšího souseda

Určení počtu sousedů k

Metoda nejbližšího souseda v k = 1 může způsobit chybnou klasifikaci nejen na emisních objektech, ale i pro ostatní třídy, které se nacházejí v blízkosti.

Pokud použijeme k = m, algoritmus bude co nejstabilnější a degeneruje se do konstantní hodnoty. Proto je pro spolehlivost důležité nedovolit extrémní ukazatele k.

V praxi se jako optimální ukazatel k použije kritérium posuvné kontroly.

nejbližší klasifikace sousedů

Zrušení emisí

Předměty výcviku jsou většinou nerovné, ale mezi nimi jsou ty, které mají charakteristické rysy třídy a jsou nazývány standardy. Vzhledem k blízkosti subjektu k ideálnímu vzorku je pravděpodobnost jeho zařazení do dané třídy vysoká.

Jak efektivní je metoda nejbližších sousedů? Příklad je možné zvážit na základě periferních a neinformačních kategorií objektů. Předpokládá se, že okolní prostředí je hustě obklopeno jinými zástupci této třídy. Pokud je odeberete ze vzorku, kvalita klasifikace nebude ovlivněna.

Abychom se dostali do takového vzorku, může to být určitý počet emisí hluku, které jsou "v silné" jiné třídě. Odstranění má v zásadě pozitivní vliv na kvalitu provedené klasifikace.

Pokud jsou ze vzorku vyloučeny neinformační a hlučné objekty, lze očekávat současně několik pozitivních výsledků.

Nejdřív interpolace pomocí nejbližšího souseda klasifikace umožňuje zvýšit kvalitu, snížit množství uložených dat, zkracují dobu klasifikace, která se vynakládá na volbě dalších norem.

Použití extra velkých vzorků

Metoda nejbližšího souseda je založena na skutečném ukládání výcvikových předmětů. Chcete-li vytvořit velice velké vzorky, použijte technické problémy. Cílem není jen proto, aby ušetřit značné množství informací, ale také v co nejkratším čase, aby měli čas najít jakýkoli předmět u K. mezi nejbližšími sousedy.

Aby bylo možné tento úkol zvládnout, používají se dvě metody:

zředit vzorek vyhozením neinformačních objektů;
používat speciální efektivní struktury a datové indexy pro okamžité vyhledávání nejbližších sousedů.

Pravidla pro výběr metodiky

Klasifikace byla posouzena výše. Metoda nejbližšího souseda se používá k řešení praktických problémů, ve kterých je vzdálenostní funkce rho (x, x `) předem známa. Při popisu objektů používají číselné vektory euklidovskou metriku. Taková volba nemá žádné zvláštní ospravedlnění, ale zahrnuje měření všech znaků "na jediném měřítku". Není-li tento faktor zohledněn, pak bude metriku dominovat znaménko s největšími číselnými hodnotami.

Za přítomnosti značného počtu znaků, které vypočítávají vzdálenost jako součet odchylek pro specifické charakteristiky, se objevuje vážný problém s dimenzemi.

V prostoru s vysokým rozměrem budou všechny objekty daleko od sebe. Nakonec jakýkoli vzorek bude vedle objektu, který studoval K sousedům. K odstranění tohoto problému je vybrán malý počet informačních znaků. Algoritmy pro výpočet odhadů budovat na základě různých sad značek, a pro každého jednotlivce stavět svou funkci přiblížení.

postgresql nejbližší sousedící metodou

Závěr

Matematické výpočty často zahrnují použití různých technik, které mají své vlastní charakteristické rysy, výhody a nevýhody. Uvažovaná metoda nejbližších sousedů umožňuje řešit spíše závažné problémy spojené s charakterizací matematických objektů. Experimentální koncepce založené na analyzované technice jsou nyní aktivně využívány v nástrojích umělé inteligence.

V expertních systémech je nutné nejen klasifikovat předměty, ale také ukázat uživateli vysvětlení příslušné klasifikace. V této metodě, vysvětlení tohoto jevu jsou vyjádřeny ve vztahu k předmětu určité třídy, jakož i její umístění vzhledem ke vzorku materiálu. Specialisté právního průmyslu, geologové, lékaři, akceptují tuto "precedentní" logiku, aktivně ji používají při studiu.

Aby analyzovaná metoda byla co nejspolehlivější, efektivnější, dávalo požadovaný výsledek, je třeba vzít minimální ukazatel k a také neumožnit emise z analyzovaných objektů. Proto je použita metodika výběru norem a optimalizace metrik.

Sdílet na sociálních sítích:

Podobné