<!--go-->
孟繁岐並不是第一次聽說DeepSeek的名字,雖然此前DS在大眾之中不能說是完全無人知曉,但說它是籍籍無名也不為過。
比起天然擁有海量客戶的網際網路大廠們推出的AI模型,DS即便免費,但終究天然地在積累使用者方面有著巨大的劣勢。
孟繁岐此前注意到DS,主要便是因為他們的技術路線與孟繁岐的幾個設想相似。
由於在降低技術成本上頗有建樹,DS的API價格要低於市場平均水平許多,這使得它慢慢積累了一些技術型的使用者。不過這個規模在孟繁岐眼中,還遠遠上不了桌。
前兩個月,DeepSeek已經迭代到了第三代。
逐漸縮小的效能差異並沒有引起孟繁岐足夠的重視。
而今天,詳細的技術報告以及R1版本的釋出,才終於讓他明白,自己實在是後知後覺。
震撼到孟繁岐的並不是單純效能上的逼近,而是諸多技術細節透露出的海量資訊。
比如,FP8的成功實現。
孟繁岐有些不相信這個事實。
半精度和FP8是他一直在大力推動的事情,而現在,DS反而成為了首個在超大規模模型上證明了FP8訓練完全可行的公司。
孟繁岐沉著臉,翻閱著DS的技術報告,他們對框架內部的操作細節並不吝嗇。
哪些核心操作做了FP8的量化,在什麼步驟應該轉回BF16,又在哪裡應該使用全精度FP32計算,標註十分詳細。
Loading...
未載入完,嘗試【重新整理】or【退出閱讀模式】or【關閉廣告遮蔽】。
嘗試更換【Firefox瀏覽器】or【Edge瀏覽器】開啟多多收藏!
移動流量偶爾打不開,可以切換電信、聯通、Wifi。
收藏網址:www.peakbooks.cc
(>人<;)