Metoda nejbližšího souseda: příklad práce
nejbližšího souseda metoda je nejjednodušší metrický třídič, který je založen na vyhodnocení podobnosti různých objektů.
Obsah
Analyzovaný objekt je odkazován na třídu, do které předměty výcvikového vzorku patří. Zjistíme, jaká je metoda nejbližšího souseda. Pokusme se pochopit tento složitý problém, ukážeme příklady různých technik.
Hypotéza metody
Metoda nejbližšího souseda může být považována za nejběžnější algoritmus používaný pro klasifikaci. Objekt, který prochází klasifikací, patří do třídy y_i, ke které patří nejbližší objekt výcvikového vzorku x_i.
Specifičnost metodologie nejbližších sousedů
K nejbližšího souseda metoda může zlepšit přesnost klasifikace. Jednotlivé prvky patří do stejné skupiny jako hlavní část jeho sousedů, to znamená, že k v blízkosti se objekty z analyzovaného vzorku x_i. Při řešení problémů s dvěma třídami počtu sousedů bude lichý, aby se zabránilo situaci nejednoznačnosti, pokud je stejný počet sousedů bude patřit do různých tříd.
Technika vážených sousedů
Postgresqlova metoda nejbližšího sousedního tsvectoru se používá, když počet tříd není menší než tři, a divné nelze použít. Ale v těchto případech vzniká nejednoznačnost. Pak i-soused dostane váhu w_i, která s rostoucím stupněm sousedu klesá. Objekt se týká třídy, která bude mít maximální váhu mezi blízkými sousedy.
Kompaktní hypotéza
Jádrem všech výše uvedených metod je hypotéza kompaktnosti. Zahrnuje souvislost mezi mírou podobnosti objektů a jejich zařazením do jedné třídy. V této situaci, hranice mezi jednotlivými typy je jednoduchá forma, a vytvořit tříd objektů ve vesmíru kompaktní mobilní oblasti. V rámci těchto domén v matematické analýze je obvyklé znamenat uzavřené ohraničené množiny. Tato hypotéza nesouvisí s každodenním vnímáním tohoto slova.
Základní vzorec
Pojďme prozkoumat více nejbližšího souseda. V případě, že navrhovaný učení druh vzorku „objekt odezvy» X ^ m = {(x 1, y_1), tečky, (x_m, y_m) } - pokud je nastavena vzdálenost funkce rho (x, x ‚) pro větší počet objektů, které reprezentován jako adekvátní modelové podobnosti objektů zvýšením hodnoty funkce snižuje podobnost mezi objekty x, x‘.
Pro každý objekt u budeme konstruovat objekty výcvikového vzorku x_i jako vzdálenosti k u zvýšení:
Rho (u, x_ {1- u}) leq rho (u, x_ {2- u}) leq cdots leq rho (u, x_ {m- u}),
kde x_ {i-u} charakterizuje výcvikový vzorkový objekt, který je i sousedním objektem původního objektu u. Tuto notaci použijeme pro odpověď na i-té souseda: y_ {i-u}. Výsledkem je, že libovolný objekt u vyvolává změnu číslování vlastního vzorku.
Určení počtu sousedů k
Metoda nejbližšího souseda v k = 1 může způsobit chybnou klasifikaci nejen na emisních objektech, ale i pro ostatní třídy, které se nacházejí v blízkosti.
Pokud použijeme k = m, algoritmus bude co nejstabilnější a degeneruje se do konstantní hodnoty. Proto je pro spolehlivost důležité nedovolit extrémní ukazatele k.
V praxi se jako optimální ukazatel k použije kritérium posuvné kontroly.
Zrušení emisí
Předměty výcviku jsou většinou nerovné, ale mezi nimi jsou ty, které mají charakteristické rysy třídy a jsou nazývány standardy. Vzhledem k blízkosti subjektu k ideálnímu vzorku je pravděpodobnost jeho zařazení do dané třídy vysoká.
Jak efektivní je metoda nejbližších sousedů? Příklad je možné zvážit na základě periferních a neinformačních kategorií objektů. Předpokládá se, že okolní prostředí je hustě obklopeno jinými zástupci této třídy. Pokud je odeberete ze vzorku, kvalita klasifikace nebude ovlivněna.
Abychom se dostali do takového vzorku, může to být určitý počet emisí hluku, které jsou "v silné" jiné třídě. Odstranění má v zásadě pozitivní vliv na kvalitu provedené klasifikace.
Pokud jsou ze vzorku vyloučeny neinformační a hlučné objekty, lze očekávat současně několik pozitivních výsledků.
Nejdřív interpolace pomocí nejbližšího souseda klasifikace umožňuje zvýšit kvalitu, snížit množství uložených dat, zkracují dobu klasifikace, která se vynakládá na volbě dalších norem.
Použití extra velkých vzorků
Metoda nejbližšího souseda je založena na skutečném ukládání výcvikových předmětů. Chcete-li vytvořit velice velké vzorky, použijte technické problémy. Cílem není jen proto, aby ušetřit značné množství informací, ale také v co nejkratším čase, aby měli čas najít jakýkoli předmět u K. mezi nejbližšími sousedy.
Aby bylo možné tento úkol zvládnout, používají se dvě metody:
- zředit vzorek vyhozením neinformačních objektů;
- používat speciální efektivní struktury a datové indexy pro okamžité vyhledávání nejbližších sousedů.
Pravidla pro výběr metodiky
Klasifikace byla posouzena výše. Metoda nejbližšího souseda se používá k řešení praktických problémů, ve kterých je vzdálenostní funkce rho (x, x `) předem známa. Při popisu objektů používají číselné vektory euklidovskou metriku. Taková volba nemá žádné zvláštní ospravedlnění, ale zahrnuje měření všech znaků "na jediném měřítku". Není-li tento faktor zohledněn, pak bude metriku dominovat znaménko s největšími číselnými hodnotami.
Za přítomnosti značného počtu znaků, které vypočítávají vzdálenost jako součet odchylek pro specifické charakteristiky, se objevuje vážný problém s dimenzemi.
V prostoru s vysokým rozměrem budou všechny objekty daleko od sebe. Nakonec jakýkoli vzorek bude vedle objektu, který studoval K sousedům. K odstranění tohoto problému je vybrán malý počet informačních znaků. Algoritmy pro výpočet odhadů budovat na základě různých sad značek, a pro každého jednotlivce stavět svou funkci přiblížení.
Závěr
Matematické výpočty často zahrnují použití různých technik, které mají své vlastní charakteristické rysy, výhody a nevýhody. Uvažovaná metoda nejbližších sousedů umožňuje řešit spíše závažné problémy spojené s charakterizací matematických objektů. Experimentální koncepce založené na analyzované technice jsou nyní aktivně využívány v nástrojích umělé inteligence.
V expertních systémech je nutné nejen klasifikovat předměty, ale také ukázat uživateli vysvětlení příslušné klasifikace. V této metodě, vysvětlení tohoto jevu jsou vyjádřeny ve vztahu k předmětu určité třídy, jakož i její umístění vzhledem ke vzorku materiálu. Specialisté právního průmyslu, geologové, lékaři, akceptují tuto "precedentní" logiku, aktivně ji používají při studiu.
Aby analyzovaná metoda byla co nejspolehlivější, efektivnější, dávalo požadovaný výsledek, je třeba vzít minimální ukazatel k a také neumožnit emise z analyzovaných objektů. Proto je použita metodika výběru norem a optimalizace metrik.
- Metoda konečných prvků je univerzální způsob řešení diferenciálních rovnic
- Jak zjistit heslo ze sousedního WiFi. Najděte heslo routeru WiFi
- Nejbližší hvězdou Země je Proxima Centauri
- Průchod "Jak se dostat k sousedovi: prázdninový oligarch" - tajemství
- Milujte svého souseda. Jakým způsobem se projevuje láska ke svému sousedovi?
- Analogie - co to je? Metoda analogie
- JS foreach objekt jako návrh variant
- Co je selektivní sledování?
- Nástroj a předmět práce. Rozdíl v pojmech. Typy pohybu objektů práce
- Heuristická metoda jako způsob, jak získat nové nápady
- Klasifikace vyučovacích metod.
- Dialektická metoda poznávání podle Hegela
- Systémová analytická metoda výzkumu
- Různé metody historického výzkumu
- Metodika a metody vědeckého výzkumu
- Obecná populace a vzorek
- Metoda analýzy hierarchií
- Metody standardizace
- Metoda modelování a její význam při vývoji nových technologií a struktur
- Matematické metody v ekonomii
- Zóna nejbližšího vývoje dítěte