DeepSeek, azienda cinese che si occupa di GenAI, ha recentemente rilasciato 2 nuovi modelli: DeepSeek-V3, LLM da piรน di 650 miliardi di parametri che supporta una context window di 128k e DeepSeek-R1, un reasoning model simile a o1 di OpenAI. Entrambi i modelli sono ๐๐๐๐-๐๐๐๐๐๐๐ย e sembrano offrire prestazioni eccellenti.
๐ง ๐๐๐๐ฉ๐๐๐๐ค-๐๐
DeepSeek-V3 รจ stato rilasciato a dicembre. ร un modello da 650 miliardi di parametri basato su architettura MoE (Mixture of Experts), con una context window di 128k token. Ha introdotto tecniche come il Multi-Token Prediction, che migliorano la previsione di intere sequenze di token. Addestrato su 14,8 trilioni di token, ha raggiunto risultati di punta nei benchmark, posizionandosi come uno dei migliori modelli open-source sul mercato. Tuttavia, ciรฒ che ha piรน impressionato sono i costi di addestramento, che risultano essere, secondo i dati rilasciati dallโazienda stessa, estremamente ridotti rispetto a quelli sostenuti dai principali competitor.
๐ ๐๐๐๐ฉ๐๐๐๐ค-๐๐
Costruito su DeepSeek-V3, DeepSeek-R1 si distingue per le sue capacitร di ragionamento avanzate, raggiungendo prestazioni comparabili al modello o1 di OpenAI, ma a costi ridotti. Ha ottenuto risultati eccezionali in diversi benchmark, mostrando un livello di accuratezza superiore a molti modelli commerciali.
๐Entrambi i modelli, DeepSeek-V3 e DeepSeek-R1, sono disponibili con licenze open-source, allargando e arricchendo questo segmento con strumenti sempre piรน performanti, riducendo la forbice con i modelli commerciali.
๐ DeepSeek ora siede al tavolo dei grandi player in tema di GenAI, portando sulla carta innovazioni strutturali e architetturali. Inoltre, sembra che i reasoning models siano la nuova area di maggior sviluppo, con le aziende che puntano quindi alla creazione di modelli capaci di svolgere task sempre piรน complesse.
Fonte: https://lnkd.in/dibdh53P
https://lnkd.in/gFt3DNn8
Comments are closed