热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > 手游攻略 >聊聊Deepseek,为什么冯骥说它是国运级别科技成果?

聊聊Deepseek,为什么冯骥说它是国运级别科技成果?

来源:互联网 更新时间:2025-04-22 18:47

最近,全球各路大佬纷纷关注deepseek,黑神话悟空的创始人冯骥盛赞其为“国运级别的科技成果”。

作为一名普通用户,我为deepseek key充值了100元,因为免费提供的10元tokens资源实在不够用。

这几天我用deepseek进行了大量测试,特别是在代码生成方面,其性能堪比gpt o1。例如,生成Python脚本时,可以直接使用,无需任何修改。

deepseek的出现犹如平地惊雷,带来了“啊哈时刻”,让我们突然意识到在AI时代没有什么是不可能的。技术可能会被封锁,但创新的边界是无限的(请允许我用一些大词)。

对于个人来说也是如此,困境总是客观存在的,但如何积累力量、柳暗花明,则取决于主观努力。

为什么DeepSeek的训练成本如此低,同时对话精确且速度极快?

我最近大致浏览了DeepSeek-V3的论文,有几点值得分享。

1、采用多头潜在注意力(MLA)来处理信息。

MLA不仅能保证性能,还能减少推理时需要存储的信息量。比如,将一本1000页的厚书提炼成10页精炼的笔记,这样既能快速查阅信息,又能减少不必要的存储空间,从而大大降低了训练成本,提升了对话速度。

2、采用DeepSeekMoE架构来分配任务。

DeepSeekMoE将不同功能的“专家”组织起来,让它们分工合作,处理不同类型的知识任务。例如,“编程专家”处理编程任务,“数学专家”处理数学问题,而不是让各种杂七杂八的专家一起来处理。这样使得对话更加精准,分工明确,效率极高。

3、采用多令牌预测(MTP)来预测tokens。

与传统模型一次预测一个单词不同,MTP能一次性预测多个后续单词,就像下棋时能预测对手后续好几步棋一样,这样预测会更加精准。不过,这个技术可能会导致一个问题,即模型会过度思考,使得回答思路更加发散。不知道大家有没有这样的感觉,deepseek会反复思考,甚至自己推翻自己。

4、训练方法的优化。

例如,FP8混合精度训练框架和DualPipe算法,使得模型的资源消耗更低。

还有一点值得一提,deepseek的技术是开源的,现在各路AI公司都在复刻这个模型,很多人认为这样就失去了核心竞争力,但我认为这是一件好事。

有以下几个原因:

1、开源技术就像鲇鱼搅活了整个AI市场,会更加繁荣。

但是,deepseek的创新能力是无法复制的,产品迭代速度和质量也会领先一步。Apache软件也是开源的,但并没有人能取代它。

2、deepseek以病毒式的扩散速度在全球声量暴增,很大程度上归功于开源。

全球各路技术大神主动为其发声,手机端应用登顶各区Apple store下载榜首,这是花多少营销费用都换不来的。

3、开源技术也打了某些人的脸(认为deepseek是抄chatgpt的作业),现在我摊牌了,看你(gpt)怎么办。

最后,希望国产AI的发展越来越好。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc