Meta s'associe à Qualcomm pour permettre aux applications basées sur Llama 2 de fonctionner sur ses puces Snapdragon d'ici 2024.
Le niveau actuel de puissance de calcul des appareils personnels n'est pas suffisant pour faire fonctionner efficacement des LLM comme Llama 2 sur des téléphones mobiles ou des ordinateurs portables. Si vous souhaitez utiliser ces puissants outils d'intelligence artificielle, vous devez généralement les exécuter sur des serveurs d'informatique en nuage.
Lorsque Meta a annoncé la sortie de Llama 2, elle s'est associée à Microsoft pour utiliser Azure comme solution privilégiée d'informatique en nuage. Mais la prochaine génération de puces Snapdragon de Qualcomm devrait apporter suffisamment de puissance de traitement aux appareils personnels pour que les applications d'IA basées sur Llama 2 puissent fonctionner sur un appareil personnel sans qu'il soit nécessaire d'avoir recours à l'informatique en nuage.
Au cours d'une Entretien avec le directeur général de Stability Au début de l'année, l'interviewer était incrédule lorsqu'Emad Mostaque a affirmé que d'ici 2024, le ChatGPT fonctionnerait sur nos téléphones sans Internet. Mais il semble aujourd'hui que cette affirmation audacieuse n'était pas du tout farfelue.
En ce qui concerne son partenariat avec MetaDurga Malladi, membre de la direction de Qualcomm, a déclaré : " Nous saluons l'approche de Meta en matière d'IA ouverte et responsable et nous nous engageons à stimuler l'innovation et à réduire les barrières à l'entrée pour les développeurs de toute taille en introduisant l'IA générative sur les appareils ".
La puce Snapdragon X75 actuelle utilise déjà l'IA pour améliorer la connectivité du réseau et la précision de la localisation dans les téléphones mobiles 5G. Une fois que Llama 2 fonctionnera sur l'appareil avec la puce de nouvelle génération, vous pourrez discuter avec votre application d'IA même si elle est en mode avion ou dans une zone sans couverture.
L'autre grand avantage de ce développement est qu'il permettra de réduire le coût des applications d'IA. Le fait de devoir effectuer des appels d'API à un LLM fonctionnant sur un serveur en nuage coûte de l'argent et ces coûts sont inévitablement répercutés sur les utilisateurs de l'application.
Si l'application peut interagir avec le LLM qui fonctionne sur l'appareil, les coûts sont nuls. Et même avec la vitesse incroyable des réseaux 5G, une application d'IA exécutée localement, comme un assistant vocal, répondra encore plus rapidement.
L'exécution d'applications d'IA sur l'appareil, sans qu'il soit nécessaire d'envoyer des données vers des serveurs en nuage, améliorera également les questions de confidentialité et de sécurité.
Le partenariat de Qualcomm Meta dans ce projet est une grande affaire et un signe de développements passionnants à venir. En 2020, Apple se vantait déjà que la puce M1 utilisait son moteur neuronal pour accélérer les tâches d'apprentissage automatique.
Il faut s'attendre à voir beaucoup plus de fabricants de puces comme Nvidia travailler sur l'exécution de grands modèles d'IA sur les appareils dans un avenir proche.