🌟 𝐃𝐞𝐞𝐩𝐒𝐞𝐞𝐤: 𝐕𝟑 𝐞 𝐑𝟏

by LacovtodGnigats 19 Febbraio 2025 0 Comments Senza categoria

DeepSeek, azienda cinese che si occupa di GenAI, ha recentemente rilasciato 2 nuovi modelli: DeepSeek-V3, LLM da più di 650 miliardi di parametri che supporta una context window di 128k e DeepSeek-R1, un reasoning model simile a o1 di OpenAI. Entrambi i modelli sono 𝒐𝒑𝒆𝒏-𝒘𝒆𝒊𝒈𝒉𝒕𝒔 e sembrano offrire prestazioni eccellenti.

🧠 𝐃𝐞𝐞𝐩𝐒𝐞𝐞𝐤-𝐕𝟑
DeepSeek-V3 è stato rilasciato a dicembre. È un modello da 650 miliardi di parametri basato su architettura MoE (Mixture of Experts), con una context window di 128k token. Ha introdotto tecniche come il Multi-Token Prediction, che migliorano la previsione di intere sequenze di token. Addestrato su 14,8 trilioni di token, ha raggiunto risultati di punta nei benchmark, posizionandosi come uno dei migliori modelli open-source sul mercato. Tuttavia, ciò che ha più impressionato sono i costi di addestramento, che risultano essere, secondo i dati rilasciati dall’azienda stessa, estremamente ridotti rispetto a quelli sostenuti dai principali competitor.

🚀 𝐃𝐞𝐞𝐩𝐒𝐞𝐞𝐤-𝐑𝟏
Costruito su DeepSeek-V3, DeepSeek-R1 si distingue per le sue capacità di ragionamento avanzate, raggiungendo prestazioni comparabili al modello o1 di OpenAI, ma a costi ridotti. Ha ottenuto risultati eccezionali in diversi benchmark, mostrando un livello di accuratezza superiore a molti modelli commerciali.

🌍Entrambi i modelli, DeepSeek-V3 e DeepSeek-R1, sono disponibili con licenze open-source, allargando e arricchendo questo segmento con strumenti sempre più performanti, riducendo la forbice con i modelli commerciali.

🔝 DeepSeek ora siede al tavolo dei grandi player in tema di GenAI, portando sulla carta innovazioni strutturali e architetturali. Inoltre, sembra che i reasoning models siano la nuova area di maggior sviluppo, con le aziende che puntano quindi alla creazione di modelli capaci di svolgere task sempre più complesse.

Fonte: https://lnkd.in/dibdh53P
https://lnkd.in/gFt3DNn8

Comments are closed

About Company

Link Utili