• 首页
  • 明星趣闻
  • 游戏心得
  • 电影推荐
  • 你的位置:39星智网 > 电影推荐 > 电影推荐资讯 这说念数学题,Kimi和豆包谁答对了?

    电影推荐资讯 这说念数学题,Kimi和豆包谁答对了?

    发布日期:2025-01-14 09:51    点击次数:155

    电影推荐资讯 这说念数学题,Kimi和豆包谁答对了?

    出品|虎嗅科技组

    作家|余杨

    裁剪|苗正卿

    头图|视觉中国

     

    12月16日下昼,我照常使用Kimi,一刹发现Kimi数学版的祥和小眼镜logo的眼镜框变大了。

    鼠标移当年一看,“Kimi数学版”也曾负责更名为“Kimi视觉念念考版”。

     

     

    这让我想起上周为Kimi数学版写的测评著作。原文如下:

     

    11月26日下昼,Kimi上线了k0-math 模子驱动的 Kimi 数学版,官宣文相配浅薄,一共3张图,1张主题,1张进口,1张才能测评,Kimi用数据语言,径直对标了Chatgpt方正红的o1-mini模子,主打一个“东说念主狠话未几”。

     

     

    或者是为了面向更多的用户,官方还提供了玩法念念路:“外传 Kimi 数学版不单会数学,就像《生涯大爆炸》里的 Sheldon 一样,它会用理科念念维来解释生涯中的一切。你还不错试试让它陪你玩 24 点游戏。”

     

    由于我的数学学问早已还给敦厚,数学水祥和亟需AI训诲西宾属性从而用来相通孩子作念功课的家长没什么区别,需要考据Kimi作念数学题到底行不行,这篇测评资格了一些盘曲,甚至于还未发出。

     

    Kimi改版后,测评虽成记挂犹新,但也有了扫视两个版块的Kimi分袂的机会。

     

    让我们悉数来望望,Kimi作念出了哪些改造。

     

    前边提到,我的数学学问早已还给敦厚,因此,我想了一个办法,用神话投诚神话,让AI给AI出题,望望Kimi在数学才能上推崇得若何样。

     

    最初,我让豆包帮我出一说念佛典数学贫苦考考它。豆包暗示,让Kimi评释一下即兴大于 2 的偶数齐不错暗示为两个质数之和。

    这是一说念尚未被澈底评释的哥德巴赫意象数学题。

     

    豆包也黑白常“厚说念”,但不要紧,AI冷凌弃东说念主多情,我们换一说念高中数学题试试水。

     

     

    Kimi数学版

    第一问很快,苟简20秒钟Kimi就给出了谜底,但是第二小问,Kimi花了33秒。解答整说念题一共53秒。

     

     

    总的来说,这是一说念成例题,Kimi的推崇也可圈可点。

     

    接下来看第二小问。

     

     

     

     

    在这个经由中,Kimi还使用了“但是,我们不妨换个角度念念考。”和“但是,让我们再仔细扫视一番。”等等相配东说念主味儿的话,并认为我方的解答“趁火抢劫”。

    豆包

    转而,我又把这说念题扔回给豆包,让豆包解答,对于我方出的题,豆包一共花了40秒,第一问的解答门径与Kimi无出二致。

     

    但第二问,豆包给出的谜底却是:

     

    哇~

     

    我们悉数来望望豆包的解题经由。

     

     

     

    豆包被我方难倒了?

    经东说念主类审查,Kimi和豆包的解法似乎齐有点问题。

     

    最初,第一小问莫得争议。

     

    而在第二小问中,Kimi的解题念念路是莫得问题的,需要先解出m和k的接头。

     

    但Kimi定点取来(h,k),取h没问题 ,k是直线斜率,是以不应该取k,至少应该换个字母,比如(h,h1)。

     

    我算计,Kimi是纰漏中式了两个字母暗示定点,而莫得留心到偏激纵坐倡导字母k便是直线l的斜率。在这个纰谬的基础之上,后续的推理齐出现了问题。

     

    通过这种样貌得出了“直线l并不老是通过一个固定点”的论断后,Kimi进一步提倡“换个角度念念考”的可能性。

     

    但是,基于上头的纰谬,我们并不行够笃定“存在一个与k无关的固定点”中的k指向的是直线斜率k,照旧定点纵坐标k,亦或是通过纰谬门径得到的对于k的抒发式中的k。

     

    要是相同的情况出当今东说念主类解题经由中,“存在一个与k无关的固定点”更多地指向临了一种情况。但是Kimi 的初级纰谬使得后续的接头齐意外旨了。

     

    再看豆包,豆包荒唐进程与Kimi不相崎岖。

     

    在临了一步的整理经由,当x=0时,豆包忽略了等式中k的存在,而得出了y = \pm \sqrt{\frac{4}{3}}的论断。

    事实上,y=。而因为k是变动的,是以不存在定点。

    它被我方出的题难倒了。

     

    转头

    数学,正本便是解开六合万物本源最为要害的钥匙之一。早期东说念主类通过结绳、刻字来计数,到背面算盘出身,鼓吹算计的演化与发展,东说念主类的数学才能一直在以指数级训诲。算计机初次结束范围演算,东说念主类破耗数千年才能推算出的成果齐齐整整,时于当天,这一棒交到了 AI 手上。

     

    Kimi数学版发布之际,月之暗面独创东说念主杨植麟曾在媒体采访中暗示,“要是说长文本是月之暗面登月的第一步,那么训诲模子深度推理才能则是第二步。”

     

    这套话语背后,映射的是也曾“百模大战”的AI圈对Scaling laws不再笃信不疑,所谓Scaling laws是信赖“猖厥出古迹”,跟着模子范围、本质数据和算计资源的增多,模子性能会得到显耀训诲。

     

    但跟着算力膨胀到一定的范围,这时算力的增多很难再径直训诲模子的质料。从Claude推出更高效的小模子启动,大模子“厂商”纷繁转向寻找灵验的门径来Scale。

     

    也便是说,这时的情景是,再加更多的算力,并不一定能看到径直的训诲。因为中枢是莫得高质料的数据,小几十G的token是东说念主类互联网积蓄了20多年的上限。于是,要通过算法的改造,来开释Scaling的后劲。

     

    对此,月之暗面遴荐了强化学习的门径和念念维链(ChAIn of Thought,简称COT)时间,Kimi数学版即由此出圈,这项时间使模子能够像东说念主类一样进行逻辑推理和念念考,从而在多个数学基准测试中稀疏了主流AI模子。

     

    另外需要留心的是,为了Kimi数学版获取更好的体验,公式推选使用 LaTeX 时局。不知说念若何输入的话,不错截图或拍照给Kimi 成例版,让Kimi 把图片转为 LaTeX 时局,然后复制题目给Kimi数学版,这次测评澈底谨守证据。

     

    Kimi视觉念念考版

    今天,我找了历史纪录,把之前Kimi领略的 LaTeX 时局数学题发给了Kimi。

     

    对于第一小问,Kimi给出了如下解答。

     

     

    最初,Kimi的数学公式标志愈加完善了,另外,它增多了验算门径。

     

    这次Kimi的解题经由耗时4分半钟,而况,在3分10秒傍边的时分,Kimi经过了一个大大的停顿,似乎因为chat的篇幅所限,“断了”。

     

     

    上周测评时我曾写到:“但昭彰从以上解题经由来看,‘像东说念主类一样进行逻辑推理和念念考’似只停留在名义,这一宏伟构想还有一段路要走。”

     

    从这周发布的Kimi视觉念念考版看来,它似乎太“东说念主类”了,它会说“我合计我之前的张开可能有误”,还会说,“等等,还有一个想法”。

     

    更要害的是,到这里,Kimi的推演中断了,由于给我提供了“接着说”按钮,我算计是之前的推演篇幅过长,Chat的容量还需要调试。

     

    我们先悉数来看接下来的解题门径。

     

     

    本色还挺硬核,前次的测评,我请学数学的一又友看了看,东说念主类的解题念念路在上文了。

     

    这一次,把评分交给环球。

     

    看到这里,你会想给Kimi点个赞吗?

     

    要是你有不雅点、想法或想看的测评,接待和我交流。要是你心爱这期本色,别忘了一键三连,因为这亦然我探索更新的能源,我们下期邂逅~。