10GbE aufwärts und die liebe METRIK...
ich bin mir zwar nicht zu 100% Sicher....aber ich glaube ich habe hier ein Problem gelöst,
das mich dieser Tage ziemlich "kirre" gemacht hat.
Natürlich war offenbar zur Lösung des Problems mal wieder eine Stellschraube nötig,
an die heutzutage KEINER mehr so richtig denkt, weil ja alles immer auf AUTOMATISCH steht....
Nun denn.....ich versuche es mal zu erklären....
Problemgeräte:
- Hauptsystem
- Hauptfileserver
Beide 20GbE (2x 10GbE) via Intel X710-DA2 Dual SFP+
an die jeweiligen Switch Aggregations vorort angeschlossen
Hauptsystem: Win 10 --> Teamed via Intel ProSet (LACP Dynamisch)
Hauptfileserver: Server 2019 --> Teamed via Servermanager und dem MS "onboard" Multiplexor-Driver ( LACP Dynamisch)
Problem-Effekt:
Je nach Reboot und nicht nachvollziehbaren "Lust und Laune"-Faktor
war mal das eine wie das andere Gerät von allen anderen (Windows)-Geräten im Netz NICHT erreichbar / pingbar.
Beide Geräte konnten weiterhin ALLE anderen Geräte sehen/nutzen...
auch die ebenfalls 20GbE LACP Dynamisch BONDED Synology NAS Boxen.
Beim Hauptsystem wie im Server (selbes Mobo) nutze ich die Onboard 2,5GbE Realtek NIC
als reine Internet-Leitung an 1GbE Ports und das 20GbE Team NUR für das Interne Netz.
Die RJ45er fungieren zudem als Fallback-Lines und laufen auf einer eigenen IP-Adresse.
Darüber sind die Geräte dann auch immer und jederzeit zu erreichen und sehen sich via dieser IP(s) auch gegenseitig.
Bei einer Ausschluss-Suche ist mir beim Prüfen der ARP-Tabellen dann folgendes aufgefallen.
Die MAC-Adressen der beiden Nativen SFP+ Ports der X710 spielen im
im Dynamischen ARP Eintrag zur IP-Adresse des 20GbE Teams offenbar gerne "Bäumchen wechsel Dich"
mal stand die eine mal die andere MAC in der ARP-Tabelle der Team-IP zugewiesen.
Im Falle meiner X710 hier oben im W10 System bedeutete das.
3C-FD-FE-06-7C-C2 (Primärer Port)
3C-FD-FE-06-7C-C0 (Sekundärer Port)
Das 20GbE Team hat durch den ProSet Teaming Driver aber diese virtuelle MAC-Adresse zugewiesen bekommen.
3C-FD-FE-0C-C0-60 ...welche aber NICHT in der ARP-Tabelle auftaucht
wohl aber aber im Netzwerk-Status, dem Proset Utility sowie bei IPCONFIG /ALL korrekt angezeigt wird.
Ja, selbst der UniFi-Netzwerk Controller zeigt diese "Virtuelle" Teaming MAC des 20GbE Teams in der Client-Liste.
Siehe Screenshot !
Nach ein paar Reboots hatte ich herausgefunden,
das offenbar die Verbindung immer dann NICHT funktionierte,
wenn die MAC des Sekundären Ports in die ARP Tabelle reingeschrieben geschrieben wurde.
Zwischenanmerkung:
Nein...ich bin KEIN Freund von statischen ARP Einträgen um etwas korrektes durch die Hintertür zu erzwingen. Dieser ließe sich hier in dem Fall auch nur via NETSH Eintragen und nicht via ARP direkt (getestet) via... netsh interface ipv4 add neighbors "Name der LAN-Verbindung" [IP] [MAC] Dieser kann auch nur wieder mit dem passenden NETSH Gegenbefehl gelöscht werden. ARP -d geht auch hier NICHT ! |
Nach diversen Treiber/ Netzwerkkarten Reset und "was weiß der Geier " an Versuchen kam ich hier nicht wirklich weiter.
Dann bin ich bei meiner "GoD"-Recherche ("Google of Death") im Internet auf das Thema "IPv4 METRIK" gestolpert...
https://docs.microsoft.com/de-…ic-metric-for-ipv4-routes
Eine Sache, die in jedem Windows System auf jeder NIC per Standard auf "AUTOMATISCHE METRIK" steht
und die i.d.R ja auch (im Enduserbereich) von niemandem wirklich mal verändert wird.
(...und warum auch , solange etwas läuft....)
Nun... bei mir lief es halt nicht rund.... Daher habe ich testhalber mal hier - mangels Alternativen - weiter angesetzt....
Ich habe nun das 20GbE Team und die RJ45-NIC auf die "alten" generell für die Windows Welt gültigen Metrik-Werte gesetzt
2x SFP+ Team 20GbE = 5
RJ45 NIC (mit 1GbE angeschlossen) = 10
nach folgendem Metrik-Schema eingetragen...
VOILA....nach mehrfachen Reboots der Geräte KEINERLEI Probleme mehr
es landet nun IMMER die Primäre MAC dynamisch in der ARP Table
und das o.g. Problem ist seitdem auch nicht mehr aufgetreten. !
Anmerkung 1:
Wie sich beide Metrik-Schemata verhalten wenn die RJ45 dann mit 2.5GbE läuft
was dann zu exakt gleichen Metrik-Werten (5+5) beim 20GbE Team & der RJ45 führen würde
habe ich nicht ausgetestet, denn ich bin -verständlicherweise- sehr froh das nun alles 100% sauber läuft.
Anmerkung 2:
...und jetzt kommt es....
so wie es aussieht hat das auch mein Topologie-Darstellungsproblem gelöst...
Da selbst mit den aktuellen FW-Beta's das Problem NICHT vollends beseitigt wurde.
Ich will ja nicht zu früh "rum-unken"...aber, seit der obigen Änderung
werden der Fileserver wie das Hauptsystem auch in der Topologie
dauerhaft am korrekten Switch angezeigt ! Hurra !
Es kann gut sein, das alles damit irgendwie in Verbindung stand.
Ich konnte bisher keinerlei "Switch-Hopping" mehr beobachten !
Eine Langzeit-Überwachung folgt....
in diesem Sinne....SKOL
***ANMERKUNG 1.7.2021***
Mittlerweile bin ich 100% Sicher das es daran lag !!!
Weil das Problem ist seit dem NICHT MEHR AUFGETRETEN !!!