nisfarm.ru

Co je lingvistika korpusů?

Před několika desetiletími vědci mohli jen snít o automatizaci lingvistického výzkumu. Práce byla provedena ručně, do ní bylo zapojeno velké množství studentů, došlo k významné pravděpodobnosti chyby "nepozorností", a co je nejdůležitější - to všechno trvalo hodně, hodně času.

S rozvojem výpočetní techniky bylo možné provádět studie řádově rychleji a dnes je jedním z nejslibnějších oblastí studia jazyků korpusová lingvistika. Jeho hlavním rysem je využití velkého množství textových informací, které jsou kombinovány do jediné databáze, speciálně označené a pojmenované tělem.

K dnešnímu dni existuje mnoho budov vytvořených pro různé účely na základě různých jazykových materiálů, které pokrývají miliony až desítky miliard lexikálních jednotek. Tento směr je považován za slibný a vykazuje významný pokrok při dosahování aplikovaných a výzkumných cílů. Specialisté, kteří se nějak zabývají přirozeným jazykem, doporučujeme, abyste se seznámili s korpusem textů alespoň na základní úrovni.

Dějiny korpusové lingvistiky

Tvorba tohoto směru je spojena s vytvořením hnědého sboru v USA na počátku 60. let minulého století. Sbírka textů obsahovala pouze 1 milion slovních formulářů a dnes sbor této velikosti by byl zcela nekonkurenční. Do značné míry se jedná o tempo vývoje počítačových technologií a rostoucí nároky na nové zdroje výzkumu.

V 90. letech se korpusová lingvistika utvořila v plnohodnotné a nezávislé disciplíně, sbírky textů byly sestaveny a označovány několika desítkami jazyků. Během tohoto období byl například vytvořen britský národní sbor pro 100 milionů využití.

korpusová lingvistika

Vzhledem k tomu, že tato lingvistika se rozvíjí, objem textů se stává stále více a více (a dosahuje miliardy slovních zásobníků) a rozložení se stává stále rozmanitější. K dnešnímu dni najdete v internetovém prostoru případy psané a mluvené řeči, vícejazyčné a výukové, zaměřené na uměleckou nebo akademickou literaturu, stejně jako mnoho dalších odrůd.

Jaké jsou těla

Typy případů v lingvistice kabinetu lze předkládat z několika důvodů. Intuitivně, je základem pro klasifikaci může být textový jazyk (rusky, německy), režim přístupu (open source, uzavřený, komerční), žánr zdrojového materiálu (hrané, dokumentární, akademické, žurnalistiky).

metody korpusové lingvistiky

Zajímavým způsobem je generování materiálů představujících ústní řeč. Vzhledem k tomu, že záměrné zaznamenání takové řeči by vytvořilo umělé podmínky pro respondenty a výsledný materiál nemohl být nazýván "spontánní", moderní jazyková lingvistika měla jinou cestu. Dobrovolník je vybaven mikrofonem a během dne se zaznamenávají všechny konverzace, v nichž se účastní. Okolní lidé samozřejmě nemohou vědět, že při rozhovoru pro domácnost přispívají k rozvoji vědy.

Později přijaté zvukové záznamy jsou uloženy v databázi a jsou doprovázeny tištěným textem podle typu přepisu. Tak je možné vytvořit markup potřebný k vytvoření tělesného ústního projevu.

Aplikace

Pokud je použití jazyka možné, je možné použít také textové pole. Účelem použití metod trupu v lingvistice může být:

  • Zavést programy určování tónu, které se aktivně používají v politice a podnikání, aby sledovaly pozitivní a negativní reakce voličů a zákazníků.
  • Připojení informačního systému k slovníkům a překladatelům za účelem zlepšení jejich výkonu.
  • Různé výzkumné úkoly, které přispívají k pochopení struktury jazyka, historie jeho vývoje a předpovědí jeho změny v blízké budoucnosti.
  • Vývoj informačních systémů pro vyhledávání na základě morfologických, syntaktických, sémantických a dalších charakteristik.
  • Optimalizace práce různých jazykových systémů a další.

Použití skříněk




Rozhraní zdroje je podobné typickému vyhledávači a vyzve uživatele, aby zadal slovo nebo kombinaci slov pro vyhledávání v informační bázi. Kromě formuláře přesné žádosti můžete použít rozšířenou verzi, která vám umožní nalézt textové informace téměř pro jakékoli jazykové kritéria.

počítačová a případová lingvistika

Základem vyhledávání může být:

  • patřící do určité skupiny řečů;
  • gramatické značky;
  • sémantika;
  • stylistické a emocionální zbarvení.

Můžete také kombinovat vyhledávací kritéria pro posloupnost slov, například, najít všechny výskyty slovesa v přítomném čase, první osobě jednotného čísla, která přichází po předložce „v“ a podstatným jménem v akuzativu. Řešení takového jednoduchého úkolu trvá několik sekund pro uživatele a vyžaduje pouze několik kliknutí ve specifikovaných polích.

Tvůrčí proces

Samotné vyhledávání se může provádět jak na všech subkorpích, tak i na jednom, konkrétně vybraném, v závislosti na potřebách dosažení konkrétního cíle:

  1. Nejprve je určeno, které texty budou základem případu. Pro praktické účely se často používají novinářské, novinové materiály, internetové komentáře. V rámci výzkumných projektů se používá řada typů skříní, ale texty by měly být vybrány podle některých společných důvodů.
  2. Výsledný soubor textů je předmětem předběžného zpracování, chyby jsou opraveny, pokud existují, připravuje se bibliografický a extralingvistický popis textu.
  3. Všechny netextové informace jsou vymazány: grafika, obrázky a tabulky jsou smazány.
  4. Existuje výběr žetonů, které obvykle představují slova, pro jejich další zpracování.
  5. Nakonec je realizováno morfologické, syntaktické a další označení výsledné sady prvků.

Výsledkem všech provedených operací je syntaktická struktura s množinou elementů distribuovaných nad ním, z nichž každá je definována část řeči, gramatické a v některých případech sémantické rysy.

Obtíže při vytváření budov

Je důležité si uvědomit, že nestačí shromáždit spoustu slov nebo vět, aby se případ dostal. Na jedné straně by měla být sbírka textů vyvážená, tj. Reprezentovat různé typy textů v určitých poměrech. Na druhé straně musí být obsah krabice speciálně označen.

zaharov korpus lingvistiky

První problém je vyřešen dohodou: například ve sbírce patří 60% literárních textů, 20% dokumentů, určité procento dostane písemné prohlášení mluveného jazyka, legislativy, vědeckých prací, atd dnes dokonalý recept je dáno tělo neexistuje ...

Druhá otázka týkající se označování obsahu je obtížnější vyřešit. Existují speciální programy a algoritmy používané pro automatické značení, ale nedávají 100% výsledek, mohou způsobit poruchy a vyžadovat ruční revizi. Možnosti a problémy při řešení tohoto problému jsou detailně popsány v práci Zakarova na korpusové lingvistice.

Označení textu se provádí na několika úrovních, které uvádíme níže.

Morfologické značení

Ze školní lavice si pamatujeme, že v ruštině existují různé části řeči a každá z nich má své vlastní zvláštnosti. Například sloveso má kategorie nálady a času, které podstatné jméno nemá. Rodilý mluvčí neváhá poklonit podstatná jména a konjugovat slovesa, ale ruční práce nebude fungovat k označení případu ve 100 milionech slov. Všechny potřebné operace mohou být prováděny počítačem, avšak pro to je nutno učit.

Morfologické označení je nezbytné pro to, aby počítač "rozuměl" každému slovu jako určitou část řeči, která má určité gramatické rysy. Vzhledem k tomu, že řada pravidelných pravidel funguje v ruštině (stejně jako v jakémkoli jiném jazyce), je možné vytvořit automatický postup pro morfologickou analýzu investováním řady algoritmů do stroje. Existují však výjimky z pravidel, jakož i různé komplikující faktory. Výsledkem je, že čistá počítačová analýza dnes není zdaleka ideální a dokonce 4% chyb dává 4 miliony slov na případ na 100 milionů jednotek, což vyžaduje manuální revizi.

Podrobně tento problém popisuje Zakharov VP "Corpus linguistics".

Syntaktická značka

Parsování nebo analýza je postup, který určuje vztah slov ve větě. S pomocí souboru algoritmů je možné v textu definovat předmět, predikát, doplnění, různé řečové řeči. Když zjistíme, která slova v pořadí jsou hlavní a která jsou závislá, můžeme efektivně extrahovat informace z textu a trénovat stroj, aby vydal pouze informace, které nás zajímají v reakci na vyhledávací dotaz.

Laboratoř korpusové lingvistiky na ruských univerzitách

Mimochodem, moderní vyhledávače to používají k tomu, aby vylíčily konkrétní čísla namísto zdlouhavých textů v reakci na odpovídající dotazy jako "kolik kalorií v jablku" nebo "vzdálenost od Moskvy k Petersburgu". Chcete-li pochopit i samotné základy popsaného procesu, musíte se seznámit s "Úvodem do lingvistiky Corpus" nebo jinou základní učební pomůckou.

Sémantická značka

Sémantika slova je jednoduchým pojmem. Široce použitelný přístup v sémantické analýze je přiřazení slovních značek, což odráží její zařazení do souboru sémantických kategorií a podkategorií. Takové informace jsou cenné pro optimalizaci algoritmů pro analýzu tonalosti textu, automatické abstrakce a dalších úkolů s využitím metod korpusové lingvistiky.

Existuje řada "kořenů" stromu, což jsou abstraktní slova s ​​velmi širokou sémantikou. Vzhledem k tomu, že tento strom větví, jsou vytvořeny uzly, které obsahují stále více specifických lexikálních prvků. Například slovo "bytí" může být spojeno s pojmy jako "člověk" a "zvíře". První slovo bude dále rozděleno na různé profese, podmínky příbuznosti, národnosti a druhé - na třídy a druhy zvířat.

Aplikace systémů vyhledávání informací

Oblasti využití lingvistiky korpusů pokrývají širokou škálu oblastí činnosti. Případy se používají k vytváření a opravování slovníků, vytváření automatických překladových systémů, abstrakce, extrahování faktů, určování klíčů a dalšího zpracování textu.

tělesné typy lingvistických těles

Kromě toho se tyto zdroje aktivně využívají při studiu jazyků světa a mechanismů fungování jazyka jako celku. Přístup k velkému objemu předem připravených informací usnadňuje operativní a komplexní studium trendů ve vývoji jazyků, vytváření neologizmů a stabilního obratu řeči, změny v hodnotách lexikálních jednotek,

Protože práce s tak velkými objemy dat vyžaduje automatizaci, dnes existuje úzká souvislost mezi počítačovou a korpusovou lingvistikou.

Národní budova ruského jazyka

Tato budova (zkráceně NKRN) obsahuje řadu dílčích korpusů, které umožňují použití zdroje pro řešení široké škály úkolů.

Materiály v základně NKRN jsou rozděleny na:

  • o publikaci v médiích 90. a 2000. tuzemských i zahraničních;
  • záznamy ústního projevu;
  • příznačně označené texty (tj. se známkami stresu);
  • řeč dialektu;
  • poetické práce;
  • materiály se syntaktickým označením atd.

Informační systém také zahrnuje subkorpy s paralelními překlady děl z ruštiny do angličtiny, němčiny, francouzštiny a mnoha dalších jazyků (a zpět).

V databázi je také část historických textů, které představují písemný projev v ruštině v různých obdobích jeho vývoje. K dispozici je také vzdělávací budova, která může být užitečná pro cizí občany při zvládnutí ruského jazyka.

Národní korpus ruského jazyka zahrnuje 400 milionů lexikálních jednotek a v mnoha ohledech překonává významnou část jazykových budov Evropy.

Vyhlídky

Skutečnost, že laboratoře korpusové lingvistiky na ruských a zahraničních univerzitách jsou slibné, je fakt ve prospěch uznání tohoto směru. S využitím a výzkumu v rámci těchto informací a vyhledávání zdrojů s sebou nese rozvoj určitých oblastí v oblasti špičkových technologií, zodpovídání dotazů systémů, ale je to popsáno výše.

historie korpusové lingvistiky

Další rozvoj corpus lingvistiky se předpokládá na všech úrovních, od technického, tak z hlediska zavádění nových algoritmů, které optimalizují procesy vyhledávání a zpracovávání informací, posílení počítačů, více RAM a spotřebiteli, protože uživatelé jsou stále více a více způsobů, jak využít tento typ zdroje v jejich každodenní život a práci.

Na závěr

V polovině minulého století v roce 2017 se zdálo vzdálené budoucnosti, kde kosmické cestovat vesmírem a roboti dělat všechnu práci pro lidi. Ve skutečnosti věda oplývá "bílými skvrnami" a dělá zoufalé pokusy odpovědět na otázky, které po staletí znepokojovaly lidstvo. Otázky fungování jazyka zde zaujímají čestné místo a korpuskulární a počítačová lingvistika nám může pomoci jim odpovědět.

Zpracování velkých datových sad umožňuje detekovat vzory, které nejsou dříve k dispozici, předvídat vývoj určitých jazykových funkcí, sledovat tvorbu slov v reálném čase.

Z praktického hlediska, globální skříně lze vidět například jako potenciální nástroj k posouzení náladu veřejnosti - Internet je neustále aktualizován denně různé texty vytvořené pomocí reálných uživatelů: Tento komentářů a recenzí a článků a mnoho dalších forma řeči.

Navíc spolupráce s korpusem přispívá k rozvoji stejných technických prostředků, které se účastní hledání informací, o službách "Google" nebo "Yandex", strojním překladu, elektronických slovnících.

Je možné s jistotou tvrdit, že korpusová lingvistika činí pouze první kroky a v blízké budoucnosti se rychle rozvíjí.

Sdílet na sociálních sítích:

Podobné
© 2021 nisfarm.ru