FormatieHogescholen en universiteiten

Wat is Corpus Linguistics?

Slechts een paar decennia geleden aan de taalkundig onderzoek te automatiseren, konden wetenschappers alleen maar van dromen. Het werk werd gedaan door de hand, trekt een groot aantal studenten, is er een aanzienlijke kans "onzorgvuldig" fouten, en nog belangrijker - dit alles duurde een lange, lange tijd.

Met de ontwikkeling van de computertechnologie mogelijk is geworden om onderzoek te doen in de orde van grootte sneller, en vandaag de dag een van de meest veelbelovende richtingen in de studie van de taal is een corpus taalkunde. Het belangrijkste kenmerk is het gebruik van grote hoeveelheden tekst, informatie in één database, op een speciale manier en riep de gemarkeerde lichaam.

Tot op heden zijn er vele gebouwen die zijn gemaakt met verschillende doeleinden op basis van verschillende taalkundige materiaal variërend van miljoenen tot tientallen miljarden lexicale eenheden. Deze richting wordt erkend als een veelbelovende en toont aanzienlijke vooruitgang in de richting van de toepassing en onderzoeksdoeleinden. Experts, een of andere manier omgaan met natuurlijke taal, is het raadzaam om kennis te maken met het lichaam van de teksten op zijn minst op een basisniveau.

Geschiedenis van corpuslinguïstiek

De vorming van deze trend is te wijten aan de oprichting van de Verenigde Staten op Brown lichaam in de vroege 60-er jaren van de vorige eeuw. De collectie bestaat uit de teksten van alle 1.000.000 van woordvormen, en vandaag de dag het lichaam van deze omvang zou totaal niet concurrerend zijn. Dit is grotendeels te wijten aan het tempo van de ontwikkeling van de computer-technologie, evenals de groeiende vraag naar nieuwe middelen onderzoek.

In de jaren '90 corpuslinguïstiek ontpopt tot een volwaardige en zelfstandige discipline, hebben een verzameling van teksten opgesteld en gemarkeerd voor tientallen talen. In deze periode is gemaakt, bijvoorbeeld de British National Corpus 100 miljoen tokens.

Met de ontwikkeling van dit gebied van de taalkunde, zijn tekst volumes steeds meer en meer (en bereik miljarden woordenboek eenheden), en de lay-out wordt steeds diverser. Tot op heden kan het internet ruimte worden gevonden karkassen geschreven en gesproken taal, meertalige en leergerichte artistieke of wetenschappelijke literatuur, evenals vele andere soorten.

Wat zijn de behuizing

Body soorten in het lichaam taalkunde kan worden voorzien om verschillende redenen. Intuïtief, de basis voor de indeling van een SMS-taal (Russisch, Duits), de toegang modus (open source, gesloten, commercieel), het genre van het bronmateriaal (fictie, documentaire, academische, journalistiek) zijn.

Interessante manier genereert materialen van gesproken taal. Aangezien de bewuste opname van een dergelijke toespraak tot een kunstmatige omgeving te creëren voor de respondenten, en het verkregen materiaal kon niet worden genoemd "spontaan", heeft de moderne corpuslinguïstiek de andere kant op gegaan. Een vrijwilliger is uitgerust met een microfoon, en overdag produceerde een overzicht van alle gesprekken, waarbij het deelneemt. Mensen rond, kan natuurlijk niet weten dat er in de loop van het alledaagse gesprekken draagt bij aan de ontwikkeling van de wetenschap.

Later ontvangen record in de database opgeslagen en worden begeleid door de afgedrukte tekst transcript type. Zo wordt het mogelijk opmaak nodig is om een orale dagelijkse speech huisvesting te creëren.

toepassing

Waar mogelijk het gebruik van de taal, en misschien wel het gebruik van gebouwen teksten. Methoden om de romp in de taalkunde van toepassing kunnen zijn:

  • Het creëren van een programma voor het bepalen van de sleutel, wordt op grote schaal gebruikt in de politiek en het bedrijfsleven om bij te houden van positieve en negatieve reacties van de kiezers en klanten respectievelijk houden.
  • Aansluiting informatiesysteem om woordenboeken en vertalers om hun prestaties te verbeteren.
  • Een verscheidenheid van het onderzoek taken die bijdragen aan het begrip van de taal-eenheid, de geschiedenis van de ontwikkeling en voorspelling van veranderingen in de nabije toekomst.
  • Ontwikkeling van information retrieval systemen op basis van de morfologische, syntactische, semantische en andere functies.
  • Optimalisatie van de verschillende linguïstische systemen en anderen.

Gebruik van gebouwen

vergelijkbaar resource-interface met een typische zoekmachine, en vraagt de gebruiker om een woord of combinatie van woorden in te voeren om te zoeken naar de informatie basis. Afgezien van de exacte query kan de verbeterde versie, die het mogelijk maakt om tekstuele informatie op vrijwel elk taalkundige criteria te gebruiken.

zoekbasis kan zijn:

  • behoren tot een bepaalde groep taaldelen;
  • grammaticale kenmerken;
  • semantiek;
  • stilistische en emotionele kleuring.

U kunt ook combineren zoekcriteria voor een opeenvolging van woorden, bijvoorbeeld om alle instanties van het werkwoord in de tegenwoordige tijd, de eerste persoon enkelvoud, dat komt na het voorzetsel "in" en het zelfstandig naamwoord in de accusatief. De oplossing om een dergelijke eenvoudige taak neemt de gebruiker een paar seconden en vereist slechts een paar muisklikken in de aangegeven gebieden.

Het aanmaken

De zoektocht zelf kan op alle subcorpus worden uitgevoerd en één specifiek gekozen afhankelijk van de behoeften in het bereiken van een bepaald doel:

  1. De eerste stap is het bepalen welke teksten basis van de zaak te vormen. Om praktische redenen wordt het vaak gebruikt journalistieke, nieuwsberichten, online commentaar. Het onderzoeksproject is het gebruik van een breed scala van pakket types, maar de tekst moet worden geselecteerd op basis van een aantal gemeenschappelijke grond.
  2. De resulterende verzameling teksten onderworpen aan voorbehandeling, is correctie van fouten eventueel bereid bibliografische en extra-linguïstische beschrijving van de tekst.
  3. Wordt geëlimineerd alle niet-tekstuele informatie: Wist de graphics, afbeeldingen, tabellen.
  4. Is een toewijzing van tokens, die typisch spraak, voor verdere verwerking.
  5. Tenslotte gedragen morfologische, syntactische en andere markeringen verkregen aantal elementen.

Het resultaat van alle transacties van een syntactische structuur met daarin verdeeld een aantal elementen, die elk woordsoort, grammaticale wordt geïdentificeerd en, in sommige gevallen, de semantische eigenschappen.

Moeilijkheden bij het creëren van gebouwen

Het is belangrijk om te begrijpen dat is niet genoeg om een reeks woorden of zinnen samen te stellen voor het lichaam. Aan de ene kant moet een verzameling van teksten evenwichtig zijn, dat wil zeggen, vertegenwoordigen verschillende soorten teksten in bepaalde verhoudingen. Anderzijds - de inhoud van de kast moet geplaatst op een speciale manier.

Het eerste probleem wordt opgelost door een overeenkomst: bijvoorbeeld in de collectie omvat 60% van literaire teksten, 20% van de documentaire wordt een bepaald percentage een schriftelijke weergave van de gesproken taal, wetgeving, wetenschappelijke werken, etc. perfecte recept evenwicht lichaam vandaag bestaat niet ...

De tweede vraag, met betrekking tot de inhoud lay-out, los uitdagende. Er zijn speciale programma's en algoritmen die worden gebruikt voor het automatisch markeren van teksten, maar ze hebben niet een perfect resultaat te geven, kunnen storingen veroorzaken en vereisen handmatige nabewerking. Kansen en uitdagingen behandeling van deze problemen worden in detail beschreven in een artikel van V. P. Zaharova corpuslinguïstiek.

Text Markup wordt uitgevoerd op verschillende niveaus, die we hieronder een lijst.

morfologische tagging

Van school, herinneren we ons dat in de Russische taal, zijn er verschillende delen van meningsuiting, en elk van hen heeft zijn eigen kenmerken. Bijvoorbeeld, het werkwoord heeft categorieën van de helling en het tijdstip waarop geen zelfstandig naamwoord. een native speaker zonder aarzeling af zelfstandige naamwoorden en werkwoorden, maar om het lichaam van 100 miljoen mark. penningen handenarbeid zal niet werken. Alle noodzakelijke bewerkingen kan de computer uit te voeren, maar voor deze moet worden onderwezen.

Morfologische tagging, moet de computer "begrijpen" elk woord als een bepaald deel van meningsuiting met bepaalde grammaticale functies. Aangezien de Russische (en elke andere taal) exploiteert een aantal vaste regels, is het mogelijk om een automatische procedure te bouwen voor de morfologische analyse, het investeren in de auto voor een aantal algoritmen. Er zijn echter uitzonderingen op de regel, evenals verschillende complicerende factoren. Als gevolg hiervan netto computeranalyse van vandaag is verre van ideaal, en zelfs 4% fout levert een waarde van 4 mln. Woorden op het lichaam van 100 miljoen euro. Units, waarvoor handmatige rework.

Gedetailleerde boek beschrijft het probleem Zaharova V. P. "Corpus Linguistics".

syntactische annotatie

Ontleden of ontleden - een procedure die de relatie tussen woorden in een zin bepaalt. Door een aantal algoritmen is het mogelijk de tekst van subject, predikaat, toevoegingen, meerdere wendingen vast. Zoek uit welke woorden de hoofdreeks, en die - afhankelijk zijn, kunnen we effectief informatie uit tekst en om de machine te leren uit te geven in reactie op een zoekopdracht alleen de informatie interessant ons.

By the way, moderne zoekmachines gebruiken om specifieke nummers in plaats van lange teksten uit te geven in reactie op relevante vragen zoals "hoeveel calorieën in een appel" of "de afstand van Moskou naar St. Petersburg." Echter, om zelfs de basis van de door de noodzaak om de "Inleiding tot het Corpus Linguistics" of een andere basic handleiding raadplegen proces te begrijpen.

semantische markup

De semantiek van het woord - is, in eenvoudige bewoordingen, de betekenis. Breed toepasbaar aanpak van de semantische analyse van een woord attributie-tags, als gevolg van zijn behoren tot een set van semantische categorieën en subcategorieën. Dergelijke informatie is waardevol voor het optimaliseren van algoritmes analyseren tekst toon, automatisch samenvatten en andere taken methoden van corpuslinguïstiek.

Er zijn een aantal van de "root" van de boom, wat neerkomt op een abstract woord met een zeer breed semantiek. Als tak van de boom knopen worden gevormd, die steeds specifiekere lexicale elementen. Zo kan de term "dier" worden geassocieerd met begrippen als "menselijke" en "dieren". Het eerste woord zal blijven om uit te vertakken in verschillende beroepen, verwantschapstermen, nationaliteit, en de tweede - op de klassen en de soorten dieren.

Het gebruik van zoeksystemen

Toepassingsgebieden corpuslinguïstiek bestrijken diverse werkterreinen. Behuizingen worden gebruikt voor de voorbereiding en de correctie van woordenboeken, creëren geautomatiseerde vertaling systemen, annoteren, het ophalen van de feiten, het bepalen van de toon en andere tekstverwerking.

Bovendien worden deze middelen actief gebruikt in de studie van de wereldtalen en mechanismen van het functioneren van de taal in het algemeen. De toegang tot grote hoeveelheden voorbereide informatie bevordert een snelle en uitgebreide studie van de trends van ontwikkeling talen, neologismen vorming en stabiele stem snelheidsverandering waarden van lexicale eenheden en anderen.

Omdat het werken met zulke grote hoeveelheden gegevens automatisering vereist, vandaag is er nauwe interactie tussen de computer en corpuslinguïstiek.

Russian National Corpus

Casu (afgekort NKRYA) een aantal subcorpus, waardoor het gebruik van een bron voor allerlei taken.

De materialen die in de database zijn verdeeld NKRYA:

  • tot publicaties in de jaren '90 en 2000 van de media, zowel binnenlandse als buitenlandse;
  • opname spraak;
  • aktsentologicheski gemarkeerde teksten (d.w.z. de kenmerken van stress);
  • dialect spraak;
  • poëzie;
  • Materialen met syntactische en andere markeringen.

Het informatiesysteem omvat ook Subcorpus met parallelle vertalingen van werken uit het Russisch naar het Engels, Duits, Frans en vele andere talen (en vice versa).

Ook in de database is er een deel van de historische teksten, die de geschreven speech in het Russisch in verschillende perioden van zijn ontwikkeling. Er is ook een training lichaam, die nuttig zijn voor buitenlandse burgers kunnen zijn in het beheersen van de Russische taal.

Russian National Corpus bestaat uit 400 miljoen lexicale eenheden, en in veel opzichten in afwachting van een belangrijk deel van de talen van Europa lichamen.

prospects

Feit in het voordeel van de erkenning van deze trend is de beschikbaarheid van veelbelovende laboratorium corpuslinguïstiek in Russische universiteiten, evenals buitenlandse. Met het gebruik van en het onderzoek in het kader van deze informatie en zoeken middelen met zich meebrengt voor de ontwikkeling van bepaalde regio's op het gebied van hoogwaardige technologieën, vraag-antwoord systemen, maar het is hierboven besproken.

Verdere ontwikkeling van corpuslinguïstiek wordt voorspeld op alle niveaus, variërend van technisch als op het gebied van implementatie van nieuwe algoritmen die de processen van het zoeken en verwerken van informatie, empowerment computers te optimaliseren, meer RAM, en de consument, omdat de gebruikers zijn meer en meer manieren om dit soort middelen te gebruiken in hun dagelijkse leven en werk.

Tot slot

In het midden van de vorige eeuw in 2017 leek verre toekomst, waar de ruimteschepen reizen door het heelal en robots doen al het werk voor de mensen. In werkelijkheid, de wetenschap is vol met "witte vlekken" en het maken van wanhopige pogingen om de vragen van de mensheid al eeuwen verstoren beantwoorden. Vragen functioneren van de taal hier te bezetten een ereplaats, en het kabinet en computationele taalkunde kan ons helpen om ze te beantwoorden.

Verwerking van grote datasets kunnen patronen ontdekken, voorheen ontoegankelijke, voorspellen de ontwikkeling van specifieke taalfuncties tot de vorming van woorden te volgen in bijna real time.

Op praktisch niveau, kan de globale behuizingen worden gezien, bijvoorbeeld, als een potentieel instrument om de publieke opinie te beoordelen - het internet is een voortdurend bijgewerkte dagelijks verschillende teksten gemaakt door echte gebruikers: deze opmerkingen en recensies en artikelen, en vele andere vormen van meningsuiting.

Bovendien is het werken met instanties draagt bij aan de ontwikkeling van de dezelfde hardware, die betrokken zijn bij het ophalen van informatie, we zijn vertrouwd met de service "Google" of "Yandex", machine translation, elektronische woordenboeken.

We kunnen gerust stellen dat de corpuslinguïstiek heeft alleen de eerste stappen, en in de nabije toekomst zal floreren.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 birmiss.com. Theme powered by WordPress.