ComputersProgrammering

Parseren: wat het is en hoe het is gemaakt

Heel vaak op het internet, kunt u een term tegenkomen zoals "parsing". Wat is het en waarom je moet? Het gebeurt zo dat programmeurs geven de job Spars elke site. Of een normale gebruiker wordt geconfronteerd met een dergelijke term niet de waarde ervan te leren kennen.

definitie

Als we een algemene zin, de parsing - een reeks woorden in vergelijking met lineaire regels voor specifieke taal die een mens kan zijn, gebruikt in de communicatie. Het kan ook worden geformaliseerd taal, zoals de programmeertaal.

En met betrekking tot de sites in antwoord op een vraag over parsing - "wat het is", "waarom use" - het kan gezegd worden dat dit proces van opeenvolgende interpreteren van de informatie die beschikbaar is op webpagina's is. De tekst is hier een verzameling van gegevens die hiërarchisch geordend en gestructureerd door middel van de computer en de menselijke taal. Deze laatste geeft direct informatie, waarvoor de mensen en komen. En programmeertalen geven hoe om deze informatie op het scherm van de gebruiker weer te geven.

inhoud Zoeken

Toen de eigenaar alleen creëert zijn eigen site, werd hij geconfronteerd met een probleem: waar te krijgen van de inhoud in te vullen? De beste optie is om te zoeken naar het WAN. Immers, er zijn oneindig veel kennis. Maar dan zijn er een aantal problemen:

  • Aangezien het internet voortdurend groeit en zich ontwikkelt, is het duidelijk dat de site grote hoeveelheden informatie om een voordeel ten opzichte van de concurrentie zou moeten bevatten. Vandaag de dag, de inhoud moet heel veel. Een met de hand in te vullen zo veel site informatie is zeer moeilijk.
  • Omdat mensen zijn niet in staat om de eindeloze stroom van steeds veranderende informatie dienen behoeften parsing. Wat zal het geven? Geautomatiseerde informatie verzamelen en procesveranderingen.

voors parser

Een programma dat een proces uitvoert parsing, vergeleken met een persoon heeft een aantal voordelen:

  • Ze lopen snel door duizenden webpagina's.
  • Geen probleem zal technische gegevens en informatie te delen met de juiste persoon.
  • Zonder fouten weggooien onnodige, waardoor alleen wat nodig is.
  • Produceren verpakking die noodzakelijk zijn voor de gebruiker weergeven.

Natuurlijk zal het uiteindelijke resultaat nog enige vorm van behandeling nodig hebben. Het maakt niet uit naar een spreadsheet of database. Maar dit is veel gemakkelijker dan als je het handmatig doen, in plaats van de parsing. Wat het doet, is het duidelijk - bespaart tijd en moeite.

ontwerp

een verscheidenheid aan programmeertalen gebruikt om parsers te creëren. De meest voorkomende zijn scripttalen. Dit betekent dat ze zijn geschreven in het script. Wat is een script en wat Parseren uitgevoerd met behulp van een dergelijke taal zullen later worden overwogen.

Vaststelling van het programma parser geen significante kennis van programmeertaal vereisen. Optioneel en basisinformatie over de technologie. Maar iets te weten is het nog steeds noodzakelijk is. Dus, om te weten hoe parsing te creëren, dat wil zeggen, het programma analyzer, moet u het volgende leren:

  • Voor het oorspronkelijke programma werkingsalgoritme aan een grondige analyse van de broncode, webpagina's, die een donor. Er kan niet zonder tenminste gemiddelde kennis van typografie technologie. Deze HTML, CSS en Javascript.
  • Om dieper in het onderwerp, moet u een technologie genaamd DOM te leren. Het biedt een mogelijkheid om zeer doelmatig te werken van een webpagina hiërarchie.
  • De meest moeilijke fase - het schrijven van een parser. Hier is het noodzakelijk om een hulpmiddel voor het verwerken van tekst bezitten. Ervaren programmeurs gebruiken vaak voor dit doel, reguliere expressies, die krachtig genoeg zijn. Maar het is de kracht is niet elke ontwikkelaar. Hier kunt u een speciale manier van denken nodig. De optimale oplossing is om een kant-en-klare bibliotheken die speciaal zijn gemaakt voor de parsing gebruiken. Wat is deze bibliotheek? Het zit vol met het programma code, die reeds bevat alle functies voor analyse.
  • Het is zeer wenselijk om object-georiënteerd programmeren, die wordt ondersteund door een programmeertaal begrijpt.
  • De laatste fase omvat het onderzoek van de resultaten van het verwerken van de gegevens die moeten worden gestructureerd en opgeslagen. Er kan niet zonder de kennis van databases.
  • We hebben de kennis en het bezit van de functies die geschikt zijn voor het werken met bestanden. Immers, worden de gegevens nodig hebben om te schrijven naar dezelfde bestanden en, misschien, worden omgezet in een spreadsheet formaat.

stadia

Indien aan alle eisen wordt voldaan, kan het volgende proces worden verdeeld in fasen:

  1. In de eerste fase van het ontleden de broncode krijgen webpagina's.
  2. De volgende stap - het extraheren van de benodigde gegevens van de markup. Er wordt weggegooid overbodige code, de informatie is georganiseerd volgens de hiërarchie.
  3. Na een succesvolle gegevens worden opgeslagen in een vorm die kan verder worden verwerkt.
  4. Omdat de site niet bestaat uit een enkele pagina, en naar de set, het algoritme moet in staat zijn om naar de volgende pagina.

Dus, het ontleden - wat is dat? Dit is de analyse van inhoud en isoleren van de gewenste informatie. Met behulp van de bovenstaande informatie, is het mogelijk om hun sites een veel inhoud automatisch invullen. Dit maakt het mogelijk om tijd te winnen en win de moeilijke concurrentie op de markt saytostroiteley.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 birmiss.com. Theme powered by WordPress.