垂直小模型一直有。这不是垂直小模型,是新思路。
Deepseek-OCR
版主: hci
#22 Re: Deepseek-OCR
我们是看戏的无关人士。
扎克给亿元大包,人力成本压1 /10,分摊一下是好事。
现在美帝这个搞法:资金全部投入十个左右公司,其它公司因缺乏资金纷纷倒闭,不是一个正确的选择。
公司内部也一样,有拿亿元大包的,同时大力裁人,也不是个正确的选择。
结果就是本可以出力的人,现在在一边等着看笑话。就是字面意思上的等着看笑话。
原因: 未提供修改原因
#23 Re: Deepseek-OCR
wass 写了: 2025年 10月 22日 10:30是国家傻逼,公司傻逼。人总是贪心的
国家傻逼是加州不允许no compete,外地签no compete的可以去加州
公司天天开源,发paper,参加会议
现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。
#24 Re: Deepseek-OCR
就如lecun说的,Llm is trivial to train。本来就是个trivial 的东西,装成高技术秘密一样的有什么用?
fantasist 写了: 2025年 10月 22日 10:51现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。
#25 Re: Deepseek-OCR
你说你是 LLM 从业人员,那请教你个问题,“蒸馏出frontier模型” ,具体怎么操作?“蒸馏”到差不太多的水平,要多少数据量?
fantasist 写了: 2025年 10月 22日 10:51现在越来越封闭了,怎么做的都严格保密。
对于墙国的聪明人来说,有一个巨大的优势是独占的市场可以试验产品,不需要直接与美帝巨头们竞争。想提升模型能力,从0到1和后来者复现难度差了数量级。总是有各种方式针对性地蒸馏出frontier模型的数据,至少纯文字模型防不住。
不知道sora2这类多模态模型能不能领先更久。
#33 Re: Deepseek-OCR
所以你并没有概念。你干的是洗数据,而不是训练。
fantasist 写了: 2025年 10月 22日 11:30所以你想听什么答案呢,我随便说个数,比如一百万条,你拿什么判断是不是有意义的?
业内人士干的活不是瞎猜要多少条的数字,而是一条条洗数据,一点点试出来。
#34 Re: Deepseek-OCR
Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。
原因: 未提供修改原因
#35 Re: Deepseek-OCR
hci 写了: 2025年 10月 22日 11:32Lecun实话实说,是个好人,是AI界的良心之一。反对他的,要么是骗子,比如Altman之流,要么是疯子,比如Hinton,要么是蠢货韭菜,比如这儿一些人。
立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。
#37 Re: Deepseek-OCR
你又在脑补了。
别的不知道,小渣的大包招了几个苹果的人去,我老婆和她的前苹果同事议论道:这些人好几个都是些混子(只有一个是靠谱的),本来在苹果就做不出来,去了买他也做不出。还有,小渣肯定给他们搞了KPI,到时候估计拿不到那么多钱。
#38 Re: Deepseek-OCR
我说等着看笑话,你以为是什么笑话,不就是不出成果么?
你属于把llm脑补成高大上的。trival的东西,再什么吹,也只能忽悠你这种韭菜。市场最终会正确定价。需要一些时间,但trival的东西,价值最终还是要归零的。
fantasist 写了: 2025年 10月 22日 11:45立场如何不重要,能干出成果是王道,说llm不work只要拿出个更好的所有人立刻闭嘴sit。
lecun好歹有cnn老本可以吃,所以就连小渣都忍了他好几年,你呢?
所谓让你靠边站的说法根本不成立。karpathy用一台网友捐赠的服务器也能做出e2e pretrain的demo,提供教育价值。想做点啥是完全不愁机会的。
我早就说了这是个你行你上啊的行业,进入门槛其实不高,只要能真干活没人管你以前是学什么的。做搜广推算法的PhD转llm拿大包只要以月为单位。但只会吹逼连pytorch都写不了的,目前肯定是没有位置的,毕竟所有公司都还不是印钞机能养着一帮ppt领导船玩家。
原因: 未提供修改原因
#39 Re: Deepseek-OCR
这个还真不是新思路,只能说国内落地能力强。这个ocr 模型2022年就有一堆文章了。关键是实现不好
#40 Re: Deepseek-OCR
什么一堆文章?在哪里?链接呢?
思路创新不是OCR,是用视觉通道处理文本信息。这是反直觉的,直觉是文本信息更小,人家反着来,说文本信息不易压缩,反而更大。这不是创新,啥是创新?这打开了一个新世界,在视觉通道搞注意,那花头就多了。
原因: 未提供修改原因




