على الرغم من التقدم المذهل في الذكاء الاصطناعي في السنوات الأخيرة، تظل الروبوتات غير معلنة ومحدودة. غالبًا ما تمر تلك الموجودة في المصانع والمستودعات بأنظمة جيدة التنظيم دون القدرة على رؤية بيئتها أو التكيف مع الذبابة. عدد قليل من الروبوتات الصناعية القادرة على رؤية الأشياء وإمساكها يمكنها فقط أداء عدد محدود من المهام ببراعة محدودة بسبب الافتقار إلى الذكاء الجسدي العام.
يمكن للروبوتات ذات القدرات العامة أن تتولى العديد من الوظائف الصناعية، ربما بعد بضعة عروض توضيحية. ستحتاج الروبوتات أيضًا إلى قدرات أكثر عمومية للتعامل مع الاختلافات الشاسعة والفوضى التي تعاني منها الأسر البشرية.
لقد تُرجمت الآن الإثارة العامة بشأن تقدم الذكاء الاصطناعي إلى تفاؤل بشأن القفزة العملاقة في مجال الروبوتات. تعمل شركة السيارات التابعة لإيلون ماسك، تيسلا، على تطوير روبوت يشبه الإنسان يُدعى أوبتيموس، بالتعاون مع ماسك. وقد اقترح للتو أنها ستكون متاحة في أي مكان بسعر يتراوح بين 20 ألف دولار إلى 25 ألف دولار وستكون متعددة الوظائف بحلول عام 2040.
ركزت الجهود السابقة لتعليم الروبوتات على أداء مهام معقدة على تدريب جهاز واحد على مهمة واحدة، لأن التعلم لا يبدو قابلاً للتحويل. وقد أظهرت بعض الأعمال الأكاديمية الحديثة أنه مع وجود نطاق كافٍ وضبط دقيق، يمكن نقل التعلم بين المهام المختلفة باستخدام الروبوتات. مشروع جوجل 2023 يسمى افتح تجسيد X فهو يتضمن مشاركة تعلم الروبوتات بين 22 روبوتًا مختلفًا في 21 مركزًا بحثيًا مختلفًا.
التحدي الرئيسي في استراتيجية الذكاء الجسدي هو أنه لا يوجد نفس القدر من بيانات الروبوت المتاحة للتدريب حيث توجد أمثلة للغات كبيرة في تنسيق نصي. لذلك يتعين على الشركة إنشاء بياناتها الخاصة والتوصل إلى طرق لتحسين التعلم من مجموعة بيانات أصغر. لتطوير π0، قامت الشركة بدمج ما يسمى بنماذج اللغة المرئية، المدربة على الصور والنصوص، مع نموذج التدفق، وهي طريقة مستعارة من توليد الصور للذكاء الاصطناعي، لتمكين نوع عام من التعلم.
لكي تكون الروبوتات قادرة على القيام بأي عمل آلي يريد الإنسان منهم القيام به، يجب زيادة هذا التعلم بشكل كبير. يقول ليفين: “لا يزال هناك طريق طويل لنقطعه، ولكن لدينا ما يمكن اعتباره سقالات توضح الأشياء القادمة.”