๐๐จ๐ฐ๐๐ซ๐๐ง๐๐๐ซ-๐ รจ un innovativo framework di inferenza ottimizzato per smartphone. ร stato progettato per supportare modelli di grandi dimensioni come il ๐๐ข๐ฑ๐ญ๐ซ๐๐ฅ ๐๐๐ ๐๐จ๐, raggiungendo velocitร di inferenza straordinarie di 11,68 token al secondo, fino a 22 volte piรน veloce rispetto ai framework attuali. Anche con modelli piรน piccoli come quelli da 7 miliardi di parametri, PowerInfer-2 mantiene velocitร di punta scaricando solo il 50% dei parametri sul telefono.
๐ Caratteristiche Principali:
๐๐ญ๐ญ๐ข๐ฆ๐ข๐ณ๐ณ๐๐ณ๐ข๐จ๐ง๐ ๐๐๐ซ๐๐ฐ๐๐ซ๐: sfrutta al meglio le diverse componenti hardware dello smartphone per calcoli piรน efficienti.
๐๐ข๐ฉ๐๐ฅ๐ข๐ง๐ ๐๐ฏ๐๐ง๐ณ๐๐ญ๐: utilizza tecniche che permettono di sovrapporre il caricamento e il calcolo dei dati per massimizzare la velocitร e l’efficienza.
๐๐ฌ๐จ ๐ข๐ง๐ญ๐๐ฅ๐ฅ๐ข๐ ๐๐ง๐ญ๐ ๐๐๐ฅ๐ฅ๐ ๐ฆ๐๐ฆ๐จ๐ซ๐ข๐: processa solo i dati necessari per ogni iterazione, riducendo l’uso della memoria e migliorando le prestazioni.
๐๐๐๐ญ๐ญ๐๐๐ข๐ฅ๐ข๐ญ๐ฬ: modifica le strategie di calcolo a seconda della fase dell’inferenza, ottimizzando l’uso delle risorse disponibili.
๐๐๐๐ก๐ ๐๐๐๐ข๐๐ข๐๐ง๐ญ๐: implementa tecniche di ๐๐๐๐๐๐๐ specifiche per mantenere i dati piรน utilizzati prontamente disponibili, riducendo i tempi di attesa.
๐๐ข๐๐ง๐ข๐๐ข๐๐๐ณ๐ข๐จ๐ง๐ ๐จ๐ญ๐ญ๐ข๐ฆ๐๐ฅ๐: analizza il modello, l’hardware e le esigenze dell’utente per creare un piano di esecuzione che garantisca le migliori prestazioni possibili.
๐ Nuovi Modelli:
PowerInfer-2 introduce i modelli T๐๐ฎ๐ซ๐๐จ๐๐ฉ๐๐ซ๐ฌ๐-๐๐ข๐ฌ๐ญ๐ซ๐๐ฅ-๐๐ ๐ ๐๐ฎ๐ซ๐๐จ๐๐ฉ๐๐ซ๐ฌ๐-๐๐ข๐ฑ๐ญ๐ซ๐๐ฅ-๐๐๐, versioni ottimizzate dei modelli Mistral e Mixtral. Questi modelli sono stati addestrati con 150 miliardi di token a un costo di soli 0,1 milioni di dollari, e sono ora disponibili su Hugging Face.
๐ Valutazione delle Prestazioni:
PowerInfer-2 รจ stato valutato su due smartphone, dimostrando una velocitร di inferenza fino a ๐๐,๐ ๐ฏ๐จ๐ฅ๐ญ๐ ๐ฌ๐ฎ๐ฉ๐๐ซ๐ข๐จ๐ซ๐ ๐ซ๐ข๐ฌ๐ฉ๐๐ญ๐ญ๐จ ๐๐ข ๐๐ซ๐๐ฆ๐๐ฐ๐จ๐ซ๐ค ๐๐ญ๐ญ๐ฎ๐๐ฅ๐ข. ร il primo sistema a supportare il modello TurboSparse-Mixtral-47B con una velocitร di generazione di 11,68 token al secondo su uno smartphone.
๐กL’introduzione di PowerInfer-2 puรฒ rappresentare ๐ฎ๐ง ๐ฉ๐๐ฌ๐ฌ๐จ ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐๐ง๐ญ๐ ๐ง๐๐ฅ๐ฅ๐จ ๐ฌ๐ฏ๐ข๐ฅ๐ฎ๐ฉ๐ฉ๐จ ๐๐๐ฅ๐ฅโ๐๐ ๐ฌ๐ฎ ๐๐ข๐ฌ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐ฏ๐ข ๐ฆ๐จ๐๐ข๐ฅ๐ข. Questa innovazione consente l’inferenza rapida di modelli di linguaggio di grandi dimensioni direttamente su smartphone, aprendo la strada a nuove applicazioni e miglioramenti nell’efficienza e nella privacy dei dati. PowerInfer-2 sarร reso disponibile alla in modalitร open-source.
๐ https://powerinfer.ai/v2/
Comments are closed