๐๐จ๐ฐ๐ž๐ซ๐ˆ๐ง๐Ÿ๐ž๐ซ-๐Ÿ รจ un innovativo framework di inferenza ottimizzato per smartphone. รˆ stato progettato per supportare modelli di grandi dimensioni come il ๐Œ๐ข๐ฑ๐ญ๐ซ๐š๐ฅ ๐Ÿ’๐Ÿ•๐ ๐Œ๐จ๐„, raggiungendo velocitร  di inferenza straordinarie di 11,68 token al secondo, fino a 22 volte piรน veloce rispetto ai framework attuali. Anche con modelli piรน piccoli come quelli da 7 miliardi di parametri, PowerInfer-2 mantiene velocitร  di punta scaricando solo il 50% dei parametri sul telefono.

๐Ÿ“Œ Caratteristiche Principali:

๐Ž๐ญ๐ญ๐ข๐ฆ๐ข๐ณ๐ณ๐š๐ณ๐ข๐จ๐ง๐ž ๐‡๐š๐ซ๐๐ฐ๐š๐ซ๐ž: sfrutta al meglio le diverse componenti hardware dello smartphone per calcoli piรน efficienti.

๐๐ข๐ฉ๐ž๐ฅ๐ข๐ง๐ž ๐€๐ฏ๐š๐ง๐ณ๐š๐ญ๐š: utilizza tecniche che permettono di sovrapporre il caricamento e il calcolo dei dati per massimizzare la velocitร  e l’efficienza.

๐”๐ฌ๐จ ๐ข๐ง๐ญ๐ž๐ฅ๐ฅ๐ข๐ ๐ž๐ง๐ญ๐ž ๐๐ž๐ฅ๐ฅ๐š ๐ฆ๐ž๐ฆ๐จ๐ซ๐ข๐š: processa solo i dati necessari per ogni iterazione, riducendo l’uso della memoria e migliorando le prestazioni.

๐€๐๐š๐ญ๐ญ๐š๐›๐ข๐ฅ๐ข๐ญ๐šฬ€: modifica le strategie di calcolo a seconda della fase dell’inferenza, ottimizzando l’uso delle risorse disponibili.

๐‚๐š๐œ๐ก๐ž ๐ž๐Ÿ๐Ÿ๐ข๐œ๐ข๐ž๐ง๐ญ๐ž: implementa tecniche di ๐’„๐’‚๐’„๐’‰๐’Š๐’๐’ˆ specifiche per mantenere i dati piรน utilizzati prontamente disponibili, riducendo i tempi di attesa.

๐๐ข๐š๐ง๐ข๐Ÿ๐ข๐œ๐š๐ณ๐ข๐จ๐ง๐ž ๐จ๐ญ๐ญ๐ข๐ฆ๐š๐ฅ๐ž: analizza il modello, l’hardware e le esigenze dell’utente per creare un piano di esecuzione che garantisca le migliori prestazioni possibili.

๐Ÿš€ Nuovi Modelli:
PowerInfer-2 introduce i modelli T๐“๐ฎ๐ซ๐›๐จ๐’๐ฉ๐š๐ซ๐ฌ๐ž-๐Œ๐ข๐ฌ๐ญ๐ซ๐š๐ฅ-๐Ÿ•๐ ๐ž ๐“๐ฎ๐ซ๐›๐จ๐’๐ฉ๐š๐ซ๐ฌ๐ž-๐Œ๐ข๐ฑ๐ญ๐ซ๐š๐ฅ-๐Ÿ’๐Ÿ•๐, versioni ottimizzate dei modelli Mistral e Mixtral. Questi modelli sono stati addestrati con 150 miliardi di token a un costo di soli 0,1 milioni di dollari, e sono ora disponibili su Hugging Face.

๐Ÿ“Š Valutazione delle Prestazioni:
PowerInfer-2 รจ stato valutato su due smartphone, dimostrando una velocitร  di inferenza fino a ๐Ÿ๐Ÿ—,๐Ÿ ๐ฏ๐จ๐ฅ๐ญ๐ž ๐ฌ๐ฎ๐ฉ๐ž๐ซ๐ข๐จ๐ซ๐ž ๐ซ๐ข๐ฌ๐ฉ๐ž๐ญ๐ญ๐จ ๐š๐ข ๐Ÿ๐ซ๐š๐ฆ๐ž๐ฐ๐จ๐ซ๐ค ๐š๐ญ๐ญ๐ฎ๐š๐ฅ๐ข. รˆ il primo sistema a supportare il modello TurboSparse-Mixtral-47B con una velocitร  di generazione di 11,68 token al secondo su uno smartphone.

๐Ÿ’กL’introduzione di PowerInfer-2 puรฒ rappresentare ๐ฎ๐ง ๐ฉ๐š๐ฌ๐ฌ๐จ ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐š๐ง๐ญ๐ž ๐ง๐ž๐ฅ๐ฅ๐จ ๐ฌ๐ฏ๐ข๐ฅ๐ฎ๐ฉ๐ฉ๐จ ๐๐ž๐ฅ๐ฅโ€™๐€๐ˆ ๐ฌ๐ฎ ๐๐ข๐ฌ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐ฏ๐ข ๐ฆ๐จ๐›๐ข๐ฅ๐ข. Questa innovazione consente l’inferenza rapida di modelli di linguaggio di grandi dimensioni direttamente su smartphone, aprendo la strada a nuove applicazioni e miglioramenti nell’efficienza e nella privacy dei dati. PowerInfer-2 sarร  reso disponibile alla in modalitร  open-source.

๐Ÿ“Ž https://powerinfer.ai/v2/

Comments are closed