分页: 2 / 5

#21 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 10:48
hci

垂直小模型一直有。这不是垂直小模型,是新思路。

toraasakusa 写了: 2025年 10月 22日 01:56

美帝早就走小模型了,你是多久不涉及AI

☆ 发自新买提 Android 25.09.28


#22 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 10:51
hci

我们是看戏的无关人士。

扎克给亿元大包,人力成本压1 /10,分摊一下是好事。

现在美帝这个搞法:资金全部投入十个左右公司,其它公司因缺乏资金纷纷倒闭,不是一个正确的选择。

公司内部也一样,有拿亿元大包的,同时大力裁人,也不是个正确的选择。

结果就是本可以出力的人,现在在一边等着看笑话。就是字面意思上的等着看笑话。

fantasist 写了: 2025年 10月 22日 10:41

你是资本阶级?听到人力成本被压到1/10,觉得太棒了,还能再傻逼点?


#23 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 10:51
fantasist
wass 写了: 2025年 10月 22日 10:30

是国家傻逼,公司傻逼。人总是贪心的

国家傻逼是加州不允许no compete,外地签no compete的可以去加州

公司天天开源,发paper,参加会议

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。


#24 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:06
hci

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

fantasist 写了: 2025年 10月 22日 10:51

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。


#25 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:07
老蛆

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?

fantasist 写了: 2025年 10月 22日 10:51

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。


#26 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:15
fantasist
hci 写了: 2025年 10月 22日 11:06

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

lecun说什么你就信啊。他这些年一直大嘴巴,不踏实干活,年底前要从fair滚蛋了。


#27 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:16
hci

他会说这是秘密。

哈哈哈。

老蛆 写了: 2025年 10月 22日 11:07

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?


#28 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:18
hci

我的观点与lecun一样。我2018年给的talk就是这个观点。都七八年之后了,我说的都应验了。

fantasist 写了: 2025年 10月 22日 11:15

lecun说什么你就信啊。他这些年一直大嘴巴,不踏实干活,年底前要从fair滚蛋了。


#29 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:18
fantasist
hci 写了: 2025年 10月 22日 10:51

我们是看戏的无关人士。

扎克给亿元大包,人力成本压1 /10,分摊一下是好事。

算了吧就你这样的混子,与其拉过来帮倒忙还不如留在一边看戏呢


#30 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:21
hci

我这样的有眼光有能力有经验的技术领导在边上等着看笑话,难道是好事?这难道不是"国家傻逼"的一部分?

fantasist 写了: 2025年 10月 22日 11:18

算了吧就你这样的混子,与其拉过来帮倒忙还不如留在一边看戏呢


#31 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:28
wass
hci 写了: 2025年 10月 22日 11:06

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

lecun就是奸细,Meta的奸细,美国的奸细


#32 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:30
fantasist
老蛆 写了: 2025年 10月 22日 11:07

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?

所以你想听什么答案呢,我随便说个数,比如一百万条,你拿什么判断是不是有意义的?
业内人士干的活不是瞎猜要多少条的数字,而是一条条洗数据,一点点试出来。


#33 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:31
老蛆

所以你并没有概念。你干的是洗数据,而不是训练。

fantasist 写了: 2025年 10月 22日 11:30

所以你想听什么答案呢,我随便说个数,比如一百万条,你拿什么判断是不是有意义的?
业内人士干的活不是瞎猜要多少条的数字,而是一条条洗数据,一点点试出来。


#34 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:32
hci

Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。

wass 写了: 2025年 10月 22日 11:28

lecun就是奸细,Meta的奸细,美国的奸细


#35 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:45
fantasist
hci 写了: 2025年 10月 22日 11:32

Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。

立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。


#36 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:49
fantasist
老蛆 写了: 2025年 10月 22日 11:31

所以你并没有概念。你干的是洗数据,而不是训练。

那可不是吗,拿小渣上百米大包的都是能直接手搓frontier models的魔法师。


#37 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 11:59
hci

你又在脑补了。

别的不知道,小渣的大包招了几个苹果的人去,我老婆和她的前苹果同事议论道:这些人好几个都是些混子(只有一个是靠谱的),本来在苹果就做不出来,去了买他也做不出。还有,小渣肯定给他们搞了KPI,到时候估计拿不到那么多钱。

fantasist 写了: 2025年 10月 22日 11:49

那可不是吗,拿小渣上百米大包的都是能直接手搓frontier models的魔法师。


#38 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 12:01
hci

我说等着看笑话,你以为是什么笑话,不就是不出成果么?

你属于把llm脑补成高大上的。trival的东西,再什么吹,也只能忽悠你这种韭菜。市场最终会正确定价。需要一些时间,但trival的东西,价值最终还是要归零的。

fantasist 写了: 2025年 10月 22日 11:45

立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。


#39 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 12:03
赖美豪中

这个还真不是新思路,只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好

hci 写了: 2025年 10月 21日 22:12

小模型不创新有卵用。

ds这个模型可怕之处在于新思路。

参数量降一个数量级,效果一样的话,就是大地震。


#40 Re: Deepseek-OCR

发表于 : 2025年 10月 22日 12:06
hci

什么一堆文章?在哪里?链接呢?

思路创新不是OCR,是用视觉通道处理文本信息。这是反直觉的,直觉是文本信息更小,人家反着来,说文本信息不易压缩,反而更大。这不是创新,啥是创新?这打开了一个新世界,在视觉通道搞注意,那花头就多了。

赖美豪中 写了: 2025年 10月 22日 12:03

这个还真不是新思路,只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好