Seminarium: Systemy Rozproszone
10 kwietnia 2025 12:15, sala 4070
Opowiem o architekturze i treningu wiodącego modelu językowego DeepSeek-V3, skupiając się bardziej na dokładniejszym opisie sposobu rozpraszania tych obliczeń niż na szczegółach MLowych. Po przypomnieniu oryginalnej architektury Transformer, wyjaśnię jak została zmodyfikowana do rozproszenia na największych klastrach świata, jak prawdziwe algorytmy używają technologii takich jak RDMA, jakie są możliwe przyszłe kierunki rozwoju sprzętu, i co to znaczy dla lokalnego uruchamiania modeli językowych.
Zapraszam,
Mateusz Cegiełka
Bibliografia:
Zapraszam,
Mateusz Wasilewski
Bibliografia: