

节录:
与月之暗面、智谱 AI、Minimax、百川智能等得回大厂投资的 AI 初创公司不同,DeepSeek 与科技巨头间并无径直关联。不外,DeepSeek 自己的算力储备却堪与大厂并列。
凤凰网科技 出品
作家|Danny
裁剪|董雨晴

被热议的东方力量
奥密的东方力量再次畏俱了寰球,此次是大模子。
12 月 26 日,国内私募机构幻方量化旗下的 DeepSeek(深度求索)发布新一代开源大模子 DeepSeek-v3,深度求索在技艺呈报中提到,行为一款参数目高达 671B 的大型讲话模子,DeepSeek-V3 在预考验阶段只用 2048 块 GPU 考验了不到 2 个月,算计 266.4 万个 GPU 小时,且只破耗了 557.6 万好意思元(约 4070.1 万元东谈主民币)。

这意味着 DeepSeek-V3 的考验本钱约为 GPT-4o 的二十分之一。Anthropic 的 CEO 达里奥 · 阿莫迪不久前曾线路,GPT-4o 这么的模子考验本钱约为 1 亿好意思元,而当今正在斥地的 AI 大模子考验本钱可能高达 10 亿好意思元。将来三年内,AI 大模子的考验本钱将飞腾至 100 亿好意思元致使 1000 亿好意思元。
性能方面,据 DeepSeek-V3 技艺呈报称,在英语、代码、数学、汉语以及多讲话任务上,基础模子 DeepSeek-V3 Base 的推崇相称出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上致使远远当先其它开源大模子。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大当先的闭源模子比拟,DeepSeek-V3 也绝不失色,何况在 MATH 500、AIME 2024、Codeforces 上皆有昭着上风。
广发证券分析称,DeepSeek-V3 算力本钱裁汰的原因有两点:第一,DeepSeek-V3 采选的 DeepSeekMoE 是通过参考了万般考验样式后优化得到的,逃避了行业内 AI 大模子考验经过中的万般问题;第二,DeepSeek-V3 采选的 MLA 架构不错裁汰推理经过中的 kv 缓存支出,其考验样式在特定标的的聘任也使得其算力本钱有所裁汰。

行业外少有东谈主知谈的是,DeepSeek 亦然大模子价钱战的最早发起者,被称为" AI 界拼多多"。2024 年 5 月,DeepSeek 发布的 DeepSeek V2 的开源模子,提供了一种史无先例的性价比:推理本钱被降到每百万 token 仅 1 块钱,约就是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。
在 DeepSeek-V3 的订价上,API 订价为输入每百万 tokens 0.5 元(缓存射中)/2 元(缓存未射中),输出每百万 tokens 8 元,与字节 Doubao-pro-256k 订价输入每百万 tokens 5 元,输出每百万 tokens 9 元的水平异常,在国产模子中性价比较高。
"今天,一家中国 AI 公司笃定泰平地发布了一个前沿大讲话模子。"知名东谈主工智能科学家和特斯拉前东谈主工智能和自动驾驶视觉总监、OpenAI 早期成员安德烈 · 卡帕西(Andrej Karpathy)评价 DeepSeek-V3 的推崇时称,"若是此模子还能通过各项评估,那么这将是资源受限条目下探求与工程才调的高度令东谈主印象深远的展示。"
"我一直在关怀 DeepSeek。前年他们领有最佳的开源编码模子之一。尽头的开源模子给前沿的大讲话模子买卖公司带来了雄壮的压力,迫使他们加速规律。"英伟达高档科学家范麟熙(Jim Fan)认为,在竞争浓烈的东谈主工智能规模中,生计本能是鼓动骚扰的主要能源。

千亿量化私募的 AI 创业
在繁多中国大模子创业公司中,Deepseek 的道路最不同。它的汉文名是"深度求索",为知名私募巨头幻方量化创立的子公司。
2023 年 4 月,幻方晓示成就新组织,集聚资源和力量,探索 AGI 的本色,在一年多时候里进展赶快。那时幻方就暗意,多年以来,该公司对峙把营收的大部分参加东谈主工智能规模,斥地当先的 AI 硬件基础才调,进行大范围的探求,探索东谈主类未知的秘密。
与月之暗面、智谱 AI、Minimax、百川智能等得回大厂投资的 AI 初创公司不同,DeepSeek 与科技巨头间并无径直关联。不外,DeepSeek 自己的算力储备却堪与大厂并列。
有云臆想打算民众建议,1 万枚英伟达 A100 芯片是作念 AI 大模子的算力门槛。当中国云厂商受限于紧缺的 GPU 芯顷然,幻方却早早押中了大模子赛谈的入场券。据报谈,除商汤科技、百度、腾讯、字节、阿里等科技巨头外,幻方也手持着超 1 万枚 GPU。
幻方量化和 Deepseek 首创东谈主梁文锋曾在媒体采访中暗意,幻方对算力的储备并不倏得。在 2019 年,幻方就已投资 2 亿元自研深度学习考验平台"萤火一号",搭载了 1100 块 GPU。到了 2021 年,"萤火二号"的参加增多到 10 亿元,搭载了约 1 万张英伟达 A100 显卡。一年后,OpenAI 发布 ChatGPT 的公开测试版块,拉开大众新一轮 AI 委宛的序幕。
事实上,在量化投资规模,幻方亦然一个特立独行的存在。幻方量化一度是中国首家骚扰千亿私募的量化大厂,准确的说亦然迄今收尾业内唯独范围曾迈过千亿大关的量化私募。
"咱们作念大模子,其实跟量化和金融皆莫得径直关联,"被媒体问及为什么一家量化基金聘任入局大模子时,梁文锋阐扬谈,"那时咱们尝试了许多场景,最终切入了实足复杂的金融,而通用东谈主工智能可能是下一个最难的事之一,是以对咱们来说,这是一个怎样作念的问题,而不是为什么作念的问题。"
公开贵寓炫夸,梁文锋是一个极致的 80 后技艺理念念见识者,从幻方时间,就在幕后潜心探求技艺,在 DeepSeek 时间,依旧延续着他的低调魄力,和所有探求员相似,每天"看论文,写代码,参与小组商议"。值得一提是,这家公司还曾对外招聘文科东谈主才,职位定位为"数据百晓生",提供东谈主类历史、文化、科学等关联的常识开端,和数据工程师一齐构建完善的寰球讲话常识库。
"咱们深信着实所有的改造皆是从斗胆尝试和点滴蕴蓄中滋长而来。咱们将充分而继续地参加,不作念中和的事,用最遥远的眼神去回复最大的问题。"梁文锋曾暗意。
在接收媒体《暗涌》的采访时,梁文锋暗意,降价一方面是因为在探索下一代模子的结构中,本钱先降下来了,另一方面也以为不管 API,仍是 AI,皆应该是普惠的、东谈主东谈主不错用得起的东西。
"畴昔许多年,中国公司民风了别东谈主作念技艺改造,咱们拿过来作念愚弄变现,但这并非是一种理所固然。这一波海浪里,咱们的起点,就不是趁便赚一笔欧洲杯体育,而是走到技艺的前沿,去鼓动通盘生态发展。"梁文锋称。