Deepseek-OCR

版主: hci

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#21 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

垂直小模型一直有。这不是垂直小模型,是新思路。

toraasakusa 写了: 2025年 10月 22日 01:56

美帝早就走小模型了,你是多久不涉及AI

☆ 发自新买提 Android 25.09.28


标签/Tags:
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#22 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

我们是看戏的无关人士。

扎克给亿元大包,人力成本压1 /10,分摊一下是好事。

现在美帝这个搞法:资金全部投入十个左右公司,其它公司因缺乏资金纷纷倒闭,不是一个正确的选择。

公司内部也一样,有拿亿元大包的,同时大力裁人,也不是个正确的选择。

结果就是本可以出力的人,现在在一边等着看笑话。就是字面意思上的等着看笑话。

fantasist 写了: 2025年 10月 22日 10:41

你是资本阶级?听到人力成本被压到1/10,觉得太棒了,还能再傻逼点?

上次由 hci 在 2025年 10月 22日 11:15 修改。
原因: 未提供修改原因
fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#23 Re: Deepseek-OCR

帖子 fantasist »

wass 写了: 2025年 10月 22日 10:30

是国家傻逼,公司傻逼。人总是贪心的

国家傻逼是加州不允许no compete,外地签no compete的可以去加州

公司天天开源,发paper,参加会议

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#24 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

fantasist 写了: 2025年 10月 22日 10:51

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

老蛆
小有名气
小有名气
帖子互动: 6
帖子: 47
注册时间: 2025年 10月 17日 16:25

#25 Re: Deepseek-OCR

帖子 老蛆 »

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?

fantasist 写了: 2025年 10月 22日 10:51

现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。

fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#26 Re: Deepseek-OCR

帖子 fantasist »

hci 写了: 2025年 10月 22日 11:06

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

lecun说什么你就信啊。他这些年一直大嘴巴,不踏实干活,年底前要从fair滚蛋了。

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#27 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

他会说这是秘密。

哈哈哈。

老蛆 写了: 2025年 10月 22日 11:07

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#28 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

我的观点与lecun一样。我2018年给的talk就是这个观点。都七八年之后了,我说的都应验了。

fantasist 写了: 2025年 10月 22日 11:15

lecun说什么你就信啊。他这些年一直大嘴巴,不踏实干活,年底前要从fair滚蛋了。

fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#29 Re: Deepseek-OCR

帖子 fantasist »

hci 写了: 2025年 10月 22日 10:51

我们是看戏的无关人士。

扎克给亿元大包,人力成本压1 /10,分摊一下是好事。

算了吧就你这样的混子,与其拉过来帮倒忙还不如留在一边看戏呢

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#30 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

我这样的有眼光有能力有经验的技术领导在边上等着看笑话,难道是好事?这难道不是"国家傻逼"的一部分?

fantasist 写了: 2025年 10月 22日 11:18

算了吧就你这样的混子,与其拉过来帮倒忙还不如留在一边看戏呢

wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 785
帖子: 7801
注册时间: 2022年 7月 23日 22:13

#31 Re: Deepseek-OCR

帖子 wass »

hci 写了: 2025年 10月 22日 11:06

就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?

lecun就是奸细,Meta的奸细,美国的奸细

fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#32 Re: Deepseek-OCR

帖子 fantasist »

老蛆 写了: 2025年 10月 22日 11:07

你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?

所以你想听什么答案呢,我随便说个数,比如一百万条,你拿什么判断是不是有意义的?
业内人士干的活不是瞎猜要多少条的数字,而是一条条洗数据,一点点试出来。

老蛆
小有名气
小有名气
帖子互动: 6
帖子: 47
注册时间: 2025年 10月 17日 16:25

#33 Re: Deepseek-OCR

帖子 老蛆 »

所以你并没有概念。你干的是洗数据,而不是训练。

fantasist 写了: 2025年 10月 22日 11:30

所以你想听什么答案呢,我随便说个数,比如一百万条,你拿什么判断是不是有意义的?
业内人士干的活不是瞎猜要多少条的数字,而是一条条洗数据,一点点试出来。

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#34 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。

wass 写了: 2025年 10月 22日 11:28

lecun就是奸细,Meta的奸细,美国的奸细

x1 图片
上次由 hci 在 2025年 10月 22日 11:33 修改。
原因: 未提供修改原因
fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#35 Re: Deepseek-OCR

帖子 fantasist »

hci 写了: 2025年 10月 22日 11:32

Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。

立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。

fantasist
见习点评
见习点评
帖子互动: 259
帖子: 1831
注册时间: 2022年 7月 24日 19:52

#36 Re: Deepseek-OCR

帖子 fantasist »

老蛆 写了: 2025年 10月 22日 11:31

所以你并没有概念。你干的是洗数据,而不是训练。

那可不是吗,拿小渣上百米大包的都是能直接手搓frontier models的魔法师。

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#37 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

你又在脑补了。

别的不知道,小渣的大包招了几个苹果的人去,我老婆和她的前苹果同事议论道:这些人好几个都是些混子(只有一个是靠谱的),本来在苹果就做不出来,去了买他也做不出。还有,小渣肯定给他们搞了KPI,到时候估计拿不到那么多钱。

fantasist 写了: 2025年 10月 22日 11:49

那可不是吗,拿小渣上百米大包的都是能直接手搓frontier models的魔法师。

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#38 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

我说等着看笑话,你以为是什么笑话,不就是不出成果么?

你属于把llm脑补成高大上的。trival的东西,再什么吹,也只能忽悠你这种韭菜。市场最终会正确定价。需要一些时间,但trival的东西,价值最终还是要归零的。

fantasist 写了: 2025年 10月 22日 11:45

立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。

上次由 hci 在 2025年 10月 22日 12:05 修改。
原因: 未提供修改原因
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 4541
帖子: 46728
注册时间: 2022年 9月 6日 12:50

#39 Re: Deepseek-OCR

帖子 赖美豪中(my pronouns: ha/ha) »

这个还真不是新思路,只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好

hci 写了: 2025年 10月 21日 22:12

小模型不创新有卵用。

ds这个模型可怕之处在于新思路。

参数量降一个数量级,效果一样的话,就是大地震。

If printing money would end poverty, printing diplomas would end stupidity.
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 535
帖子: 10413
注册时间: 2022年 7月 22日 15:29

#40 Re: Deepseek-OCR

帖子 hci(海螺子)楼主 »

什么一堆文章?在哪里?链接呢?

思路创新不是OCR,是用视觉通道处理文本信息。这是反直觉的,直觉是文本信息更小,人家反着来,说文本信息不易压缩,反而更大。这不是创新,啥是创新?这打开了一个新世界,在视觉通道搞注意,那花头就多了。

赖美豪中 写了: 2025年 10月 22日 12:03

这个还真不是新思路,只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好

上次由 hci 在 2025年 10月 22日 13:04 修改。
原因: 未提供修改原因
回复

回到 “葵花宝典(Programming)”