首页 > 学习技巧 > 学习技巧 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

学习技巧更多>>

2024年西安交通大学第一附属医院院前急救120医生招聘公告 2024年陕西省中医医院招聘公告 2024年黑龙江中医药大学附属第一医院招聘工作人员(人事代理)公告 2024年九江市武宁县总医院人民医院院区编外聘用人员招聘公告 2024年宁波市慈溪市浒山街道实验幼儿园招聘公告 2025年曲靖经济技术开发区卓然学校教师岗位招聘公告 2024年四川九洲教育投资管理有限公司招聘思政教师公告 2024年福州商贸职业中专学校招聘非在编短期临时教师公告 售价跌破40万的保时捷,未来的日子可能会越来越难 零跑C11用实力告诉你,什么才是真正的科技平权 小米汽车为何要与“黄牛”划清界限? 冲刺月交付3万辆,深蓝汽车能做到吗? 看完特斯拉的销量成绩,造车新势力们还有心思“吹牛”吗? 特斯拉Model Y Plaid无伪装谍照曝光,尾灯又变了,但好看了 全新哈弗H7内饰谍照曝光,类似H6,或年内推出 阿维塔12增程版来了,26.99万起,综合续航1155km 新款奥迪A3上市,16.59万起,换装1.5T发动机 本田 CR-V / HR-V新增特别版!空气动力套件上身更帅气 2024年厦门市思明第二实验小学顶岗人员招聘简章 2024年福州市晋安区农业农村局招聘劳务派遣人员公告 2024年厦门市集美区内林小学招聘非在编顶岗教师招聘简章 2024年福建省造血干细胞捐献者资料库管理中心招聘劳务派遣工作人员公告 2024年福州市福清市火车站片区综合管理处招聘公告 2024年龙岩市永定区卫生健康局永定区医院遴选工作人员公告 2024年厦门市前埔北区小学非在编人员(数学教师)招聘简章 11.98万大空间纯电SUV,罕见2C快充+510km续航,解读五菱星光S 宇通新能源商用车成功征服“神州第一弯” 售价7.58万起,五菱缤果SUV,五座版能成为10万内的购车首选吗? 龙颜外观+第五代DM技术,第二代宋Pro DM-i将于9月23日新款上市 都是B级插混轿车,领克07 EM-P车型和雅阁e:PHEV车型谁更强?