<!--go-->
準確地說,DeepSeek並不是第一次釋出模型了。
在孟繁岐的視角來看,DeepSeek所公佈的技術,一直以來都有不錯的創意。
Closeai與DS也是有一些技術交流的,只不過兩者合作並不緊密,孟繁岐也沒有太將這個做量化的跨界公司放在眼中。
他認為,DS所做的稀疏沒有高壁壘,仍舊受制於英偉達顯示卡。
換言之,孟繁岐雖然驚訝與DeepSeek-v3竟然彎道超車,提前完成了他在兩個技術方向上的設想,但這件事情總體來說還是在意料之中的。
孟繁岐早就想過可能會有其他公司搶先做到,也做好了心理準備
對比之下,DeepSeek-R1系列模型,則完全超乎孟繁岐的意料。
尤其是R1-Zero這一技術,可以說是完全在孟繁岐的理解之外。
在GPT發展到第四代之後,讓大模型對問題進行分析推理成為了提升模型效能的一個重要技術。
早期,有學者發現了一個非常微妙的事情,在與大模型進行交流對話的時候,如果你對它說,“請一步一步好好思索分析這個問題”,僅僅只是添加了一句話,卻起到了明顯的作用。
經過學者們的測試,完全相同的模型,加上這句話作為提示詞後,在各個資料集和指標上的驗證結果都有了顯著的提高。
在有些地方上,這麼一句話帶來的顯著的效果甚至超過將模型擴大幾倍規模。
Loading...
未載入完,嘗試【重新整理】or【退出閱讀模式】or【關閉廣告遮蔽】。
嘗試更換【Firefox瀏覽器】or【Edge瀏覽器】開啟多多收藏!
移動流量偶爾打不開,可以切換電信、聯通、Wifi。
收藏網址:www.peakbooks.cc
(>人<;)