Hoe complexe gegevens op Linux te visualiseren

U heeft waarschijnlijk wel eens gehoord van Elasticsearch, de zoekmachine waarmee u uw gegevens kunt indexeren en vervolgens snel kunt doorzoeken. Je hebt misschien een paar visualisaties gemaakt in Kibana, de GUI voor Elasticsearch, die je een weg wijst en klikt door de gestroomlijnde interface.

Wat je misschien niet hebt gebruikt, is een minder bekende visualisatie-plug-in genaamd Timelion.

Timelion is een fantastische tool voor het maken van visualisaties die het mogelijk maakt om uw vragen in zijn eenvoudige en krachtige expressietaal uit te schrijven om grafieken weer te geven. Het wordt gebruikt voor het weergeven van tijdreeksgegevens, zoals bevolkingsgroei of hits op uw website.

Hier is een lijst met de beste laptops voor ontwikkelaars
Bekijk deze beste distributies voor ontwikkelaars
Reken eenvoudig cijfers uit op deze beste werkstations

Over dit artikel

Dit artikel verscheen voor het eerst in Linux Format Magazine, Issue # 269, gepubliceerd in november 2022-2023.

Met Timelion kunnen we voortschrijdende gemiddelden berekenen, het verschil tussen de gegevens van vorige week en vandaag weergeven en enkele basisanomaliedetectie uitvoeren. Het is een handig hulpmiddel om te weten hoe u ermee moet werken. Laten we beginnen.

Installatie

Als je een gewone Linux Format-lezer bent, zijn er voorbeelden van docker-samenstellen voor het opzetten van een cluster in LXF261.

Anders is het installeren van Elasticsearch en Kibana relatief eenvoudig. De enige vereiste is Java, dat u mogelijk al heeft geïnstalleerd.

Als het niet eenvoudig is om sudo apt install default-jre te installeren op Debian-gebaseerde distributies of zou een sudo dnf install java hetzelfde moeten doen voor de Red Hat-familie van distributies.

Dan hoeft u alleen maar de nieuwste versie van Elasticsearch en Kibana te downloaden voor de door u gewenste besturingssysteemsmaak.

Op het moment van schrijven is de laatste versie kibana-7.8.1-linux-x86_64.tar.gz.

U kunt het uitpakken met tar -xvzf kibana-7.8.1-linux-x86_64.tar.gz, naar de uitgepakte directory gaan en ./bin/kibana & uitvoeren om de Kibana-instantie te starten.

Als je precies dezelfde stappen hebt uitgevoerd om Elasticsearch in te stellen, waarbij je 'kibana' vervangt door 'elasticsearch', zou je in je favoriete browser naar http: // localhost: 5601 moeten kunnen navigeren en een glimmende nieuwe Kibana-interface zien om te spelen rond met.

Als u pakketten liever met een pakketbeheerder installeert, heeft dezelfde link als voorheen informatie over het toevoegen van de Elastic repo aan uw systeem en het op die manier installeren van de Kibana- en Elasticsearch-pakketten.

U kunt grafieken over elkaar heen leggen en opmaak gebruiken om uw grafieken er op hun best uit te laten zien.

Haal wat gegevens op

Recente versies van Kibana maken het mogelijk om datasets automatisch in ons cluster op te nemen met de Data Visualizer in plaats van een script of Logstash-configuratie te hoeven maken. Het kan datasets in JSON- of CSV-indeling verwerken, evenals enkele standaardlogbestanden zoals Apache-logboeken. De enige beperking is dat ze minder dan 100 MB groot zijn. Dit is meer dan genoeg voor onze doeleinden.

We gebruiken de wereldwijde dataset Covid-19 cases van het EU Open Data Portal. We hebben het CSV-bestand gedownload uit het gedeelte Bronnen van de pagina.

Als u problemen ondervindt, kunt u ervoor kiezen om in plaats daarvan de Excel .xlsx-versie te downloaden, deze te openen met LibreOffice Calc en deze op te slaan als CSV-indeling (.csv). Er is ook een JSON-versie beschikbaar om te downloaden die u als alternatief kunt gebruiken.

Om naar de Data Visualizer in Kibana te gaan, klikt u linksboven op het hamburgersymbool, vervolgens op Machine Learning en ten slotte op Data Visualizer. Klik daar eenmaal op Bestand uploaden in het vak Gegevens importeren, selecteer of sleep een bestand en kies uw csv-bestand om op te nemen.

Na een korte analyse zal het enkele statistieken laten zien die zijn ontdekt uit de eerste 1000 regels van het CSV-bestand. Dit is de indeling waarvan elk van de velden denkt, zoals tekst, datum of getal, en markeert de bovenste waarden die in de velden worden gevonden.

Het is meestal goed om dit voor ons uit te zoeken. Als u aanpassingen wilt maken, kunt u op Instellingen overschrijven klikken om deze te wijzigen, bijvoorbeeld de naam van het veld zoals deze wordt ingesteld in Elasticsearch.

Een veldnaam die we moeten overschrijven is dateRep, wat de datum voor het berekende cijfer in onze dataset vertegenwoordigt. Timelion zal niet weten hoe dit standaard als tijdveld moet worden gebruikt, dus we kunnen ons leven later vereenvoudigen door dit veld nu te hernoemen naar iets dat het zal herkennen.

Een goede kandidaat is tijdstempel. Klik op Toepassen om dat in te stellen. Als u tevreden bent met hoe de rest eruitziet, klikt u onderaan op Importeren, geeft u de index een naam (we hebben voor covid gekozen) en klikt u nogmaals op Importeren om de gegevens in uw cluster te krijgen.