Grafana zeig keine Daten mehr in Dashboards an

Shihatsu · 14.11.2021

Joa Moin, ich visualisiere mein Netzwerkkrams gerne mit Grafana.
Dazu benutze ich einen Debian-basierten LXC, auf diesem läuft neben Grafana noch graphite und collectd zur Datensammlung und influx als Datenbank.
Nun zickt mein Grafana zum zweiten mal (bewußt, maybe öfters?) rum.

Fehlerbeschreibung:
Wenn ich Grafana aufrufe sieht erst einmal alles gut aus - der Service Grafana an sich funktioniert also erst einmal: ER zeigt mir sauber meine "Home" Seite mit meinen Dashboards an. Die Dashboards haben allerdings alle keine Daten. Die Panels zeigen alle N/A an, die Fehlermeldung des roten Warndreiecks lautet InfluxDB Error: Bad Gateway. Panels in denen ich templates verwende zeigen zusätzlich die Fehler
Templating [server]
Error updating options: InfluxDB Error: Bad Gateway
Templating [Interface]
Error updating options: InfluxDB Error: Bad Gateway

Status der services:
root@grafana:~# systemctl status grafana-server
* grafana-server.service - Grafana instance
Loaded: loaded (/usr/lib/systemd/system/grafana-server.service; enabled; vendor preset: enabled)
Active: active (running) since Wed 2021-10-27 17:44:29 CEST; 2 weeks 3 days ago
Docs: http://docs.grafana.org
Main PID: 114 (grafana-server)
Tasks: 11 (limit: 9830)
Memory: 40.1M

root@grafana:~# systemctl status collectd
* collectd.service - Statistics collection and monitoring daemon
Loaded: loaded (/lib/systemd/system/collectd.service; enabled; vendor preset: enabled)
Active: active (running) since Wed 2021-10-27 17:44:30 CEST; 2 weeks 3 days ago
Docs: man:collectd(1)
man:collectd.conf(5)
https://collectd.org
Process: 109 ExecStartPre=/usr/sbin/collectd -t (code=exited, status=0/SUCCESS)
Main PID: 122 (collectd)
Tasks: 12 (limit: 9830)
Memory: 40.7M

root@grafana:~# systemctl status influxdb
* influxdb.service - InfluxDB is an open-source, distributed, time series database
Loaded: loaded (/lib/systemd/system/influxdb.service; enabled; vendor preset: enabled)
Active: failed (Result: signal) since Sat 2021-11-13 21:19:54 CET; 13h ago
Docs: https://docs.influxdata.com/influxdb/
Process: 19685 ExecStart=/usr/bin/influxd -config /etc/influxdb/influxdb.conf $INFLUXD_OPTS (code=killed, signal=KILL)
Main PID: 19685 (code=killed, signal=KILL)

So, da haben wir ja den schuldigen, und auch die Fehlermeldung im GUI weist ja auch darauf hin: Irgendwas stimmt nicht mit der InfluxDB. Beim letzten Mal als das auftrat habe ich den Server am Ende rebootet (LXC neu gestartet) da ein simples service restart aller services nicht half. Ich will nicht wieder so "ungeplant" losrennen, sondern mal fragen wie ihr euch einer solchen Sache annehmt um daraus zu lernen.

Folgende Dinge habe ich mir jetzt erst einmal angeschaut um mich der Ursache zu nähern.
Weiterer output aus systemctl status collectd:
Nov 13 21:18:19 grafana collectd[122]: rrdtool plugin: rrd_update_r (/var/lib/collectd/rrd/FritzBox/fritzbox-1/bytes-totalbytesreceived.rrd) failed: /var/lib/collectd/rrd/FritzBox/fritzbox-1/bytes-totalbytesreceived.rrd: illegal attempt
Nov 13 21:18:19 grafana collectd[122]: plugin_read_thread: read-function of the `python.fritzcollectd' plugin took 47.229 seconds, which is above its read interval (10.000 seconds). You might want to adjust the `Interval' or `ReadThread

Offenbar wird die Fritzbox (bzw. deren colelctd agent krams) die Daten wegen Netzwerkthematik (?) nicht los. O, Netzwerk, uncool. Was sagt DMESG?

[Nov14 10:01] ixgbe 0000:61:00.0 enp97s0f0: NIC Link is Down
[ +0.000944] vmbr0: port 1(enp97s0f0) entered disabled state
[ +1.251513] ixgbe 0000:61:00.0 enp97s0f0: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[ +0.000211] vmbr0: port 1(enp97s0f0) entered blocking state
[ +0.000005] vmbr0: port 1(enp97s0f0) entered forwarding state
Und davon einen HAUFEN. Also wirklich alle 2, 3 Minuten - vielleicht genau dann wenn collectd sammelt? Ursache oder Folge oder unabhängig voneinander? Was sagt denn das physische Device auf dem dieser vNIC liegt? Huom, 29 Linkdowns seit es das Device gibt - das ist definitiv normal, ist also nicht die Ursache.

Und an der Stelle verliessen sie mich und ich machte Themer. Werde natürlich jetzt das wilde duckduckgoen anfangen, aber erstmal hier fragen - bw.de>restofdeinterweb.

tzui · 19.11.2021

bei unseren Monitoring Systemen (Icinga) geht Grafana auch ab und zu down, Ursache? kein Plan.
Habe gerne etwas beigetragen.

mAiLmAn · 19.11.2021

Kannst du die Abfrage-Rate (nicht das Timeout, wie's im Log steht) des Plugins für die fritzbox reduzieren?
Oh und tzui bannen, Danke.

HERR 2FICKENDEHUNDE · 22.11.2021

was meldet denn die influx... offensichtlich wird die ja gekillt, daher kein port offen, daher bad gateway

€: container sind echt nice

Grafana zeig keine Daten mehr in Dashboards an

Erweitert

Shihatsu

Administrator

tzui

mAiLmAn

HERR 2FICKENDEHUNDE