OpenAI’nin O3 Modeli Matematik Problemlerinde Başarı İddiası
OpenAI, Aralık ayında tanıttığı O3 AI modeli ile matematik problemlerinde devrim yaratacağını duyurmuştu. Şirket, FrontierMath benchmark’ında %25’in üzerinde başarı elde ettiğini iddia etmişti. Ancak bağımsız testler, bu iddianın gerçeği yansıtmadığını ortaya koydu.
Epoch AI’nin Test Sonuçları Şaşkına Çevirdi
Epoch AI tarafından yapılan testler, O3 modelinin yalnızca %10 başarı gösterdiğini belirtirken, OpenAI’nin test yöntemleri ve şeffaflığı tartışma konusu haline geldi. OpenAI, O3 modelinin, daha az hesaplama gücüyle ve gerçek dünya kullanımına odaklanacak şekilde optimize edildiğini savunuyor.
OpenAI’nin O3 modeli hakkındaki açıklamaları, AI sektöründe sıkça rastlanan benchmark tartışmalarını yeniden alevlendirdi. ARC Prize Foundation, halka sunulan O3 modelinin test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Benzer şekilde, xAI ve Meta gibi şirketler de yanıltıcı benchmark sonuçları nedeniyle eleştirilerin hedefi olmuştu.