分页: 1 / 1

#1 openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 17日 11:46
川小小
是不是类似搜索引擎,每天都要收集最新数据不断训练?

#2 Re: openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 17日 12:04
Caravel
有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。

#3 Re: openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 17日 12:13
川小小
Caravel 写了: 2025年 3月 17日 12:04 有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。
那各家使用的数据集都差不多?

#4 Re: openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 17日 12:37
Caravel
川小小 写了: 2025年 3月 17日 12:13 那各家使用的数据集都差不多?
肯定也有自己的数据

#5 Re: openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 18日 08:47
Gaige
sam altman在reddit有9%股份,openai从reddit搞数据有优势

#6 Re: openAI这类大模型每天都会用爬虫收集数据吗?

发表于 : 2025年 3月 18日 10:49
红烛歌楼
所以你每天说话的语音被偷走用于训练,网络上发的文字更是如此。所以你最好隔绝于世,这样就不会怕了