تقدم الشركة المسؤولة عن برنامج DALL-E نظامًا مفتوح المصدر للتعرف على الكلام للباحثين والمطورين. يقدم Whisper وظائف النسخ، ولكن أيضًا الترجمة الإنجليزية.
OpenAI، التي أسسها Elon Musk، هي شركة متخصصة في الذكاء الاصطناعي. وهي معروفة على وجه الخصوص بنظام DALL-E، مما يجعل من الممكن تصميم الأعمال من الأوصاف. يتيح هذا النظام أيضًا إمكانية إضافة عناصر حول صورة موجودة. لكن OpenAI تواصلت في مجال آخر: التعرف على الصوت. حيث أطلقت الشركة برنامج مفتوح المصدر يطلق عليه Whisper الذي يسمح لك بتحويل الصوت إلى نص للغة الإنجليزية، ولكن أيضًا للغات أخرى. أخيرًا، يمكنه اكتشاف اللغة المنطوقة تلقائيًا.
يتم قطع صوت الإدخال إلى كتل 30 ثانية، والتي يتم تحويلها إلى مخططات طيفية. تعمل هندسة Whisper على مبدأ تشفير / فك تشفير بسيط لكل كتلة:
لهذا، قامت شركة OpenAI بتدريب شبكة عصبية تحتوي على 680.000 ساعة من البيانات. من بين هذه المجموعة، تتوافق 438000 ساعة مع اللغة الإنجليزية مع نسخ باللغة الإنجليزية. الجزء 126000 ساعة مخصص للغات الأخرى بترجمتها الإنجليزية، بينما 117000 ساعة للغات غير الإنجليزية مع النسخ الأصلي المقابل. تم إجراء التعلم بإجمالي 99 لغة. أظهرت النتائج أن أداء نسخ Whisper يكون أفضل عندما استفادت الشبكة العصبية من المزيد من ساعات التدريب.
يشار الى أنه، يوجد بالفعل العديد من أنظمة التعرف التلقائي على الكلام (ASR) في السوق، على سبيل المثال تلك التي تستخدمها Apple و Microsoft و Amazon و Google. ولكن وفقًا للدراسات التي أجرتها شركة OpenAI، تُظهر النماذج المستخدمة في Whisper متانة أفضل في معالجة اللهجات والضوضاء الخلفية والمصطلحات الفنية.