nisfarm.ru

Kódování Unicode: standardní kódování znaků

Každý uživatel internetu při pokusu o nastavení jedné nebo několika jeho funkcí alespoň jednou viděl na displeji napsaný text v latinkách

slovo "Unicode". Co je to, dozvíte se v tomto článku.

Unicode co je to

Definice

Kódování Unicode je standard kódování znaků. Byla navržena neziskovou organizací Unicode Inc. v roce 1991. Standard je navržen tak, aby v jednom dokumentu kombinoval co nejvíce různých typů symbolů. Stránka, která je na jejím základě vytvořena, může obsahovat písmena a hieroglyfy z různých jazyků (z ruštiny do korejštiny) a matematické znaky. Všechny znaky v tomto kódování jsou zobrazeny bez problémů.

Důvody pro vytvoření

Jednou, dlouho před objevením systému Unicode, bylo kódování vybráno na základě preferencí autora dokumentu. Z tohoto důvodu často četl jeden dokument, museli jste použít různé tabulky. Někdy to muselo být provedeno několikrát, což značně komplikovalo život běžného uživatele. Jak již bylo řečeno, řešení tohoto problému v roce 1991 navrhla nezisková organizace Unicode Inc., která navrhla nový typ kódování znaků. Byl povolán, aby spojil morálně zastaralé a rozmanité standardy. "Unicode" - kódování, které umožnilo dosáhnout v té době nemyslitelné: vytvořit nástroj, který podporuje obrovské množství znaků. Výsledek překonal mnoho očekávání - objevily se dokumenty, které současně obsahovaly anglický i ruský text, latinské a matematické výrazy.

Vytvoření jediného kódování však předcházelo potřeba vyřešit řadu problémů, které vznikly kvůli velkému množství standardů, které v té době existovaly. Mezi nejčastější patří:

  • elfické spisy nebo "karkozyabry";
  • omezená sada znaků;
  • problém kódování konverze;
  • duplikace písem.

Standard Unicode

Krátké historické odbočení




Představte si, že na dvoře 80.. Počítačový hardware není tak časté a má tvar odlišný od dnešního dne. Zatímco každý OS je jedinečný a rafinované specifickým potřebám každého nadšenec. Potřeba výměny informací se převádí do dalšího přepracování a všechno. Snaží číst dokument vytvořený pomocí jiného operačního systému, často se zobrazí zvláštní sadu znaků, a hra začíná kódování. To není vždy to udělat rychle a někdy nutné dokument nelze otevřít za šest měsíců, a ještě později. Lidé, kteří si často vyměňují informace, vytvořit pro sebe převodní tabulku. A pak pracovat na nich odhaluje zajímavý detail: nutnost vytvořit v obou směrech, „Z mého ve své“ tam a zpět. Dělat banální inverze výpočetní stroj nemůže za něj v pravém sloupci zdroje a levá - výsledek, ale ne obráceně. Pokud vidíte, že je třeba používat žádné speciální znaky v dokumentu, musely být přidány jako první, a pak další, a vysvětlit partnerovi, co potřebuje k tomu, aby tyto znaky nestanou „blábol“. A nezapomínejme, že pro každé kódování musel vyvinout nebo realizovat vlastní fonty, které vedly k vytvoření obrovského množství duplikátů v OS.

Představte si dále, že písma na stránce, uvidíte 10 kusů identické Times New Roman s malou poznámkou: UTF-8, UTF-16, ANSI, UCS-2. Nyní chápete, že vývoj všeobecných norem bylo nutné?

Kódování Unicode

"Otcové-tvůrci"

Počátky vzniku Unicode lze nalézt v roce 1987, kdy Joe Becker ze společnosti Xerox, spolu s Lee Collins a Mark Davis z Apple začal výzkum v oblasti praktického vytvoření univerzální znakové sady. V srpnu 1988, Joe Becker zveřejnila předlohu návrhu na vytvoření 16-bit multi-kulturní mezinárodního kódovacího systému.

O několik měsíců později Unicode pracovní skupina byla rozšířena o Ken Whistler a Mike Kernegana z RLG, Glenn Wright z Sun Microsystems a několik dalších odborníků, která má umožnit dokončení prací na předběžné formování společné kódovací standard.

Kódování Unicode

Obecný popis

Unicode je založen na pojetí symbolu. Tato definice je chápána jako abstraktní jev existující v konkrétní formě psaní a realizovaný grafemy (jeho "portréty"). Každý znak je nastaven v Unicode jedinečným kódem patřícím k určitému bloku standardu. Například grapheme B je v angličtině a ruské abecedě, ale v Unicode odpovídá 2 různým znakům. Přeměňují se malá písmena, to znamená, že každý z nich je popsán databázovým klíčem, sadou vlastností a úplným názvem.

Výhody Unicode

Od ostatních současníků se kódování Unicode vyznačuje obrovskou rezervou znaků pro "šifrování" znaků. Faktem je, že jeho předchůdci měli 8 bitů, tj. Podporovali 28 znaků, ale nový vývoj měl již 216 znaků, což byl obrovský krok kupředu. To umožnilo kódovat téměř všechny existující a distribuované abecedy.

S příchodem systému Unicode nebylo nutné používat převodní tabulky: jako jediný standard jednoduše zrušily jejich potřebu. Stejně tak "krakozyabry" zmizely také do zapomnění - jediná norma to znemožnila, stejně jako vyloučila potřebu vytvářet duplicitní písma.

Vývoj Unicode

Pokrok samozřejmě nezastaví a od první představení uplynulo 25 let. Kódy Unicode však tvrdošíjně udržují svou pozici ve světě. V mnoha ohledech to bylo možné díky skutečnosti, že se stalo snadným implementáním a šířením, které byly rozpoznány vývojáři proprietárního (placeného) a open source softwaru.

kódování unicode (standard kódování znaků)

Bychom neměli věřit, že dnes vidíme stejný kód „Unicode“ jako čtvrtletí před sto lety. V současné době byla nahrazena verze 5.h.h, a počet kódovaných symbolů se zvýšil na 231. Na možnost použití větší míru známky odmítl ještě udržovat podporou UNICODE-16 (kódování, kde je největší množství jejich omezený počet 216). Od svého vzniku až do verze 2.0.0 „The Standard Unicode“ se zvýšil počet znaků, které je součástí téměř 2 krát. příležitostí a další růst v příštích letech. Ve verzi 4.0.0 je již potřeba zvýšit standard sám, a to bylo děláno. Jako výsledek, „Unicode“ našel formu, v jaké ji známe dnes.

Unicode, co je to tak

Co jiného je v aplikaci Unicode?

Kromě obrovského, stále se zvyšujícího počtu postav, "Unicode" - kódování textových informací má ještě jednu užitečnou funkci. Mluvíme o tzv. Normalizaci. Namísto posouvání celého symbolu dokumentu podle znaku a nahrazení odpovídajících ikon z tabulky shody se použije jeden ze stávajících normalizačních algoritmů. O čem to mluvíme?

Namísto výdajů počítačových zdrojů na pravidelnou kontrolu stejného symbolu, který může být podobný v různých abecedách, je použit speciální algoritmus. Umožňuje vygenerovat podobné znaky v samostatném grafu vyhledávací tabulky a odkazovat se na ně již a ne opakovat kontrolu všech dat.

Existují čtyři takové algoritmy vyvinuté a implementované. V každé z nich se transformace uskutečňuje podle striktně definovaného principu, který se liší od ostatních, a proto není možné označit jeden z nich za nejefektivnější. Každý byl vyvinut pro specifické potřeby, byl implementován a úspěšně použit.

Unicode text encoding

Rozšiřování standardu

Za 25 let své historie kódování Unicode pravděpodobně získalo největší distribuci na světě. Podle tohoto standardu jsou také upraveny programy a webové stránky. Rozsah aplikace lze říci skutečností, že dnes Unicode využívá více než 60% internetových zdrojů.

Nyní víte, kdy se objevila standardní "Unicode". Co je to, také znáte a budete schopni ocenit celou hodnotu vynálezu vytvořenou skupinou specialistů společnosti Unicode Inc. před více než 25 lety.

Sdílet na sociálních sítích:

Podobné
© 2021 nisfarm.ru