Deepseek-OCR

hci

垂直小模型一直有。这不是垂直小模型，是新思路。

toraasakusa 写了： 2025年 10月 22日 01:56
美帝早就走小模型了，你是多久不涉及AI

☆ 发自新买提 Android 25.09.28

hci

我们是看戏的无关人士。

扎克给亿元大包，人力成本压1 ／10，分摊一下是好事。

现在美帝这个搞法：资金全部投入十个左右公司，其它公司因缺乏资金纷纷倒闭，不是一个正确的选择。

公司内部也一样，有拿亿元大包的，同时大力裁人，也不是个正确的选择。

结果就是本可以出力的人，现在在一边等着看笑话。就是字面意思上的等着看笑话。

fantasist 写了： 2025年 10月 22日 10:41
你是资本阶级？听到人力成本被压到1/10，觉得太棒了，还能再傻逼点？

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 10:51

wass 写了： 2025年 10月 22日 10:30
是国家傻逼，公司傻逼。人总是贪心的

国家傻逼是加州不允许no compete，外地签no compete的可以去加州

公司天天开源，发paper，参加会议

现在越来越封闭了，怎么做的都严格保密。
对于墙国的聪明人来说，有一个巨大的优势是独占的市场可以试验产品，不需要直接与美帝巨头们竞争。想提升模型能力，从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据，至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

hci

就如lecun说的，Llm is trivial to train。本来就是个trivial 的东西，装成高技术秘密一样的有什么用？

fantasist 写了： 2025年 10月 22日 10:51
现在越来越封闭了，怎么做的都严格保密。
对于墙国的聪明人来说，有一个巨大的优势是独占的市场可以试验产品，不需要直接与美帝巨头们竞争。想提升模型能力，从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据，至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

老蛆 · 帖子由老蛆 » 2025年 10月 22日 11:07

你说你是 LLM 从业人员，那请教你个问题，“蒸馏出frontier模型” ，具体怎么操作？“蒸馏”到差不太多的水平，要多少数据量？

fantasist 写了： 2025年 10月 22日 10:51
现在越来越封闭了，怎么做的都严格保密。
对于墙国的聪明人来说，有一个巨大的优势是独占的市场可以试验产品，不需要直接与美帝巨头们竞争。想提升模型能力，从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据，至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 11:15

hci 写了： 2025年 10月 22日 11:06
就如lecun说的，Llm is trivial to train。本来就是个trivial 的东西，装成高技术秘密一样的有什么用？

lecun说什么你就信啊。他这些年一直大嘴巴，不踏实干活，年底前要从fair滚蛋了。

hci

他会说这是秘密。

哈哈哈。

老蛆写了： 2025年 10月 22日 11:07
你说你是 LLM 从业人员，那请教你个问题，“蒸馏出frontier模型” ，具体怎么操作？“蒸馏”到差不太多的水平，要多少数据量？

hci

我的观点与lecun一样。我2018年给的talk就是这个观点。都七八年之后了，我说的都应验了。

fantasist 写了： 2025年 10月 22日 11:15
lecun说什么你就信啊。他这些年一直大嘴巴，不踏实干活，年底前要从fair滚蛋了。

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 11:18

hci 写了： 2025年 10月 22日 10:51
我们是看戏的无关人士。

扎克给亿元大包，人力成本压1 ／10，分摊一下是好事。

算了吧就你这样的混子，与其拉过来帮倒忙还不如留在一边看戏呢

hci

我这样的有眼光有能力有经验的技术领导在边上等着看笑话，难道是好事？这难道不是＂国家傻逼＂的一部分？

fantasist 写了： 2025年 10月 22日 11:18
算了吧就你这样的混子，与其拉过来帮倒忙还不如留在一边看戏呢

wass · 帖子由 **wass** » 2025年 10月 22日 11:28

hci 写了： 2025年 10月 22日 11:06
就如lecun说的，Llm is trivial to train。本来就是个trivial 的东西，装成高技术秘密一样的有什么用？

lecun就是奸细，Meta的奸细，美国的奸细

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 11:30

老蛆写了： 2025年 10月 22日 11:07
你说你是 LLM 从业人员，那请教你个问题，“蒸馏出frontier模型” ，具体怎么操作？“蒸馏”到差不太多的水平，要多少数据量？

所以你想听什么答案呢，我随便说个数，比如一百万条，你拿什么判断是不是有意义的？
业内人士干的活不是瞎猜要多少条的数字，而是一条条洗数据，一点点试出来。

老蛆 · 帖子由老蛆 » 2025年 10月 22日 11:31

所以你并没有概念。你干的是洗数据，而不是训练。

fantasist 写了： 2025年 10月 22日 11:30
所以你想听什么答案呢，我随便说个数，比如一百万条，你拿什么判断是不是有意义的？
业内人士干的活不是瞎猜要多少条的数字，而是一条条洗数据，一点点试出来。

hci

Lecun实话实说，是个好人，是AI界的良心之一。反对他的，要么是骗子，比如Altman之流，要么是疯子，比如Hinton，要么是蠢货韭菜，比如这儿一些人。

wass 写了： 2025年 10月 22日 11:28
lecun就是奸细，Meta的奸细，美国的奸细

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 11:45

hci 写了： 2025年 10月 22日 11:32
Lecun实话实说，是个好人，是AI界的良心之一。反对他的，要么是骗子，比如Altman之流，要么是疯子，比如Hinton，要么是蠢货韭菜，比如这儿一些人。

立场如何不重要，能干出成果是王道，说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃，所以就连小渣都忍了他好几年，你呢？
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo，提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业，进入门槛其实不高，只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的，目前肯定是没有位置的，毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。

fantasist · 帖子由 **fantasist** » 2025年 10月 22日 11:49

老蛆写了： 2025年 10月 22日 11:31
所以你并没有概念。你干的是洗数据，而不是训练。

那可不是吗，拿小渣上百米大包的都是能直接手搓frontier models的魔法师。

hci

你又在脑补了。

别的不知道，小渣的大包招了几个苹果的人去，我老婆和她的前苹果同事议论道：这些人好几个都是些混子（只有一个是靠谱的），本来在苹果就做不出来，去了买他也做不出。还有，小渣肯定给他们搞了KPI，到时候估计拿不到那么多钱。

fantasist 写了： 2025年 10月 22日 11:49
那可不是吗，拿小渣上百米大包的都是能直接手搓frontier models的魔法师。

hci

我说等着看笑话，你以为是什么笑话，不就是不出成果么？

你属于把llm脑补成高大上的。trival的东西，再什么吹，也只能忽悠你这种韭菜。市场最终会正确定价。需要一些时间，但trival的东西，价值最终还是要归零的。

fantasist 写了： 2025年 10月 22日 11:45
立场如何不重要，能干出成果是王道，说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃，所以就连小渣都忍了他好几年，你呢？
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo，提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业，进入门槛其实不高，只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的，目前肯定是没有位置的，毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。

赖美豪中

这个还真不是新思路，只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好

hci 写了： 2025年 10月 21日 22:12
小模型不创新有卵用。

ds这个模型可怕之处在于新思路。

参数量降一个数量级，效果一样的话，就是大地震。

hci

什么一堆文章？在哪里？链接呢？

思路创新不是OCR，是用视觉通道处理文本信息。这是反直觉的，直觉是文本信息更小，人家反着来，说文本信息不易压缩，反而更大。这不是创新，啥是创新？这打开了一个新世界，在视觉通道搞注意，那花头就多了。

赖美豪中写了： 2025年 10月 22日 12:03
这个还真不是新思路，只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好

新未名空间

Deepseek-OCR

#21 Re: Deepseek-OCR

#22 Re: Deepseek-OCR

#23 Re: Deepseek-OCR

#24 Re: Deepseek-OCR

#25 Re: Deepseek-OCR

#26 Re: Deepseek-OCR

#27 Re: Deepseek-OCR

#28 Re: Deepseek-OCR

#29 Re: Deepseek-OCR

#30 Re: Deepseek-OCR

#31 Re: Deepseek-OCR

#32 Re: Deepseek-OCR

#33 Re: Deepseek-OCR

#34 Re: Deepseek-OCR

#35 Re: Deepseek-OCR

#36 Re: Deepseek-OCR

#37 Re: Deepseek-OCR

#38 Re: Deepseek-OCR

#39 Re: Deepseek-OCR

#40 Re: Deepseek-OCR