分页: 1 / 1
#1 openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 17日 11:46
由 川小小
是不是类似搜索引擎,每天都要收集最新数据不断训练?
#2 Re: openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 17日 12:04
由 Caravel
有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。
#3 Re: openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 17日 12:13
由 川小小
Caravel 写了: 2025年 3月 17日 12:04
有人专门干这个,比如有个开源的 common crawer,肯定也有收费的。
那各家使用的数据集都差不多?
#4 Re: openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 17日 12:37
由 Caravel
川小小 写了: 2025年 3月 17日 12:13
那各家使用的数据集都差不多?
肯定也有自己的数据
#5 Re: openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 18日 08:47
由 Gaige
sam altman在reddit有9%股份,openai从reddit搞数据有优势
#6 Re: openAI这类大模型每天都会用爬虫收集数据吗?
发表于 : 2025年 3月 18日 10:49
由 红烛歌楼
所以你每天说话的语音被偷走用于训练,网络上发的文字更是如此。所以你最好隔绝于世,这样就不会怕了