谷歌、OpenAI学者谈AI：语言模型正在努力“攻克”数学

谷歌、OpenAI學者談AI：語言模型正在努力“攻克”數學

2024-06-07

　　AI究竟(jing)擅沒有善于數學，還得具(ju)體(ti)問(wen)題具(ju)體(ti)分(fen)析。

　　若(ruo)是問較量爭(zheng)論機善于什么(me)，正在所有(you)的(de)(de)謎底里，數(shu)學必需(xu)榜上有(you)名(ming)。正在履歷了(le)冗長的(de)(de)研(yan)討以后(hou)，頂尖學者們(men)正在研(yan)討較量爭(zheng)論機關于數(shu)學較量爭(zheng)論方(fang)面的(de)(de)成長，取得(de)了(le)使人驚奇的(de)(de)成果。

　　就拿(na)客歲而言，來源于加州(zhou)大學(xue)伯克利分校(xiao)、OpenAI和Google的(de)(de)(de)研究(jiu)人員正在(zai)言語(yu)模(mo)子層(ceng)面取(qu)得了(le)(le)長足的(de)(de)(de)提高(gao)，GPT-3、DALL·E 2等被開辟出來。然而，直到現正在(zai)，言語(yu)模(mo)子還(huan)沒(mei)法處理一(yi)些(xie)簡(jian)樸的(de)(de)(de)、用言語(yu)描寫的(de)(de)(de)數學(xue)題目(mu)，比(bi)方「Alice比(bi)Bob多五(wu)個(ge)球(qiu)，Bob正在(zai)給Charlie四個(ge)球(qiu)后有(you)兩個(ge)球(qiu)。問(wen)Alice有(you)一(yi)些(xie)球(qiu)？」這對言語(yu)模(mo)子而言，想要給出準確謎底，大概(gai)就有(you)點「費勁」了(le)(le)。

　　「當我們說計(ji)算機(ji)(ji)異常(chang)善(shan)于(yu)數學時(shi)，意義是(shi)它們異常(chang)善(shan)于(yu)特(te)定的、詳(xiang)細的事情，」來源于(yu)谷歌的機(ji)(ji)械進修專(zhuan)家Guy Gur-Ari示意。計(ji)算機(ji)(ji)善(shan)于(yu)算術是(shi)不(bu)(bu)假(jia)，但在特(te)定的形式以外，計(ji)算機(ji)(ji)就敬謝不(bu)(bu)敏(min)了，簡樸的文字描述題皆答復免不(bu)(bu)了。

　　谷(gu)歌研討員Ethan Dyer曾暗示：干數學研討的(de)人有一套僵化的(de)推(tui)理體系，關(guan)于他們熟知(zhi)的(de)和不了解的(de)內容(rong)，這(zhe)兩者之(zhi)間擁有較著(zhu)的(de)鴻溝(gou)。

　　辦(ban)理(li)文字題目或定量推理(li)題目很辣手(shou)，由于(yu)不同于(yu)其他題目，這(zhe)兩者須要(yao)魯(lu)棒性(xing)和嚴謹性(xing)。若是過(guo)程中的任何(he)一步涌現毛(mao)病(bing)，將會(hui)招致毛(mao)病(bing)的謎底。DALL·E正在(zai)繪畫層面使人印象深(shen)刻，盡管它(ta)生成(cheng)的圖象有(you)時會(hui)很奇異(yi)，大(da)概漏(lou)掉人的手(shou)指、眼睛長得奇異(yi)……這(zhe)一些我們都(dou)能接受，可是它(ta)正在(zai)數學層面涌現了(le)毛(mao)病(bing)，我們的容忍(ren)度就(jiu)會(hui)十分(fen)小。來源于(yu)OpenAI的機械進修專家Vineet Kosaraju還曾表(biao)達(da)過(guo)這(zhe)類設法主意，「我們對(dui)言語模(mo)子所犯(fan)的數學毛(mao)病(bing)（好比(bi)將10誤會(hui)為1和0，而不管是10）容忍(ren)性(xing)照(zhao)樣比(bi)較小的。」

　　「我們(men)研討(tao)數學僅(jin)僅(jin)是因為我們(men)發(fa)覺它(ta)自力且異常風趣，」OpenAI機械進(jin)修專家(jia)Karl Cobbe說。

　　伴隨(sui)著機械進(jin)修模子(zi)(zi)(zi)正在(zai)更大的(de)(de)數(shu)據樣本上鍛煉而(er)成(cheng)，它們的(de)(de)魯棒性更好、犯(fan)錯還更少。但擴(kuo)大模子(zi)(zi)(zi)范(fan)圍好像只會(hui)根據定量推理(li)舉行。研究人(ren)員意想到，關于(yu)言語模子(zi)(zi)(zi)所犯(fan)的(de)(de)毛病好像需求更有針對性的(de)(de)方法來處理(li)。

　　客歲，加(jia)州大學(xue)(xue)(xue)伯克利分(fen)(fen)校(xiao)和OpenAI的兩個(ge)研(yan)討(tao)團隊分(fen)(fen)離公(gong)布(bu)了數(shu)(shu)據(ju)(ju)集(ji)(ji)MATH和GSM8K，這兩個(ge)數(shu)(shu)據(ju)(ju)集(ji)(ji)包羅多少、代數(shu)(shu)、初等(deng)數(shu)(shu)學(xue)(xue)(xue)等(deng)數(shu)(shu)千個(ge)數(shu)(shu)學(xue)(xue)(xue)題目。「我們(men)想看看這是(shi)(shi)(shi)沒有是(shi)(shi)(shi)是(shi)(shi)(shi)數(shu)(shu)據(ju)(ju)集(ji)(ji)的題目，」處置(zhi)數(shu)(shu)學(xue)(xue)(xue)事情的AI平安(an)中(zhong)間(jian)研(yan)討(tao)員(yuan)Steven Basart說。家喻戶(hu)曉(xiao)，言語模子(zi)沒有善于單詞題目，正在這個(ge)題目上它們(men)施展闡發(fa)的有多糟糕，是(shi)(shi)(shi)沒有是(shi)(shi)(shi)能夠根(gen)據(ju)(ju)引入花樣(yang)更(geng)好、更(geng)大的數(shu)(shu)據(ju)(ju)集(ji)(ji)來(lai)處理？

　　正(zheng)在MATH數據集(ji)上，頂級言語(yu)模(mo)子的(de)(de)準(zhun)確(que)度(du)為7%，而人類研究生(sheng)的(de)(de)準(zhun)確(que)度(du)為40%，奧林匹克冠(guan)軍的(de)(de)準(zhun)確(que)度(du)為90%。正(zheng)在GSM8K數據集(ji)上（小(xiao)學級此外題(ti)目(mu)），模(mo)子達(da)到了20%的(de)(de)準(zhun)確(que)度(du)。實驗中OpenAI使用了微折衷考證這兩(liang)種(zhong)技能(neng)，結果表明模(mo)子能(neng)夠看到許多(duo)本身(shen)毛(mao)病的(de)(de)例子，這一發(fa)明很有價值。

　　那時(shi)，OpenAI的(de)(de)模子(zi)需(xu)要在100倍以上的(de)(de)數據上開展鍛煉(lian)，才能在GSM8K上到達80%的(de)(de)準(zhun)確(que)度。但在本(ben)年6月，谷歌(ge)宣布(bu)了Minerva，到達78%的(de)(de)準(zhun)確(que)度。這一后果超出了預(yu)期，研究者(zhe)表現，比(bi)料想的(de)(de)時(shi)候(hou)來的(de)(de)更(geng)快。

　　論文地點：

　　Minerva基于谷歌自研的(de)Pathways言語模子(zi)(PaLM)，具有(you)更多的(de)數(shu)學數(shu)據集，包(bao)羅(luo)arXiv、LaTeX等數(shu)學花樣。Minerva還采(cai)用了其他戰(zhan)略(lve)，正在(zai)思想鏈提醒（chain-of-thought prompting）中(zhong)，Minerva將(jiang)更大的(de)題目分(fen)解(jie)成小塊。別的(de)，Minerva還運(yun)用大都投票(piao)（majority voting），不全是(shi)請(qing)求模子(zi)給出一個謎(mi)底(di)，反(fan)而(er)是(shi)請(qing)求它提出100種(zhong)謎(mi)底(di)。正在(zai)這(zhe)一些謎(mi)底(di)中(zhong)，Minerva挑(tiao)選最普(pu)遍(bian)的(de)一種(zhong)謎(mi)底(di)。

　　這(zhe)一些新策略(lve)的(de)(de)(de)收(shou)益是偉(wei)大(da)的(de)(de)(de)，Minerva正在(zai)(zai)(zai)MATH上(shang)(shang)的(de)(de)(de)準確度(du)高(gao)達50%，正在(zai)(zai)(zai)GSM8K和MMLU（包孕(yun)化(hua)學和生物學正在(zai)(zai)(zai)內的(de)(de)(de)一組更通用的(de)(de)(de)STEM題(ti)目）上(shang)(shang)的(de)(de)(de)準確度(du)靠近80%。當Minerva被請(qing)求重做略(lve)微(wei)調整過的(de)(de)(de)題(ti)目時(shi)，它的(de)(de)(de)顯露一樣(yang)很好，這(zhe)表明它的(de)(de)(de)才能不僅(jin)是來源于影(ying)象。

　　Minerva大(da)概有(you)奇異(yi)(yi)、紊亂的推理，但仍然得出準確的謎(mi)底。只管像Minerva如許的模子(zi)大(da)概會得出取人類不(bu)(bu)異(yi)(yi)的謎(mi)底，但它們所遵照的現實歷(li)程(cheng)大(da)概大(da)不(bu)(bu)不(bu)(bu)異(yi)(yi)。

　　谷歌機(ji)械進修專家Ethan Dyer透露表現，「我以為存(cun)正在(zai)(zai)如許一(yi)種(zhong)看法(fa)，即數學相干(gan)人士有一(yi)些嚴厲的推理體(ti)系，領(ling)會某事和不(bu)(bu)領(ling)會某事之(zhi)間存(cun)正在(zai)(zai)顯明的區(qu)分。」但人們給出的謎底不(bu)(bu)一(yi)致，會犯錯誤，還沒(mei)法(fa)使用(yong)焦(jiao)點(dian)觀點(dian)。正在(zai)(zai)機(ji)械進修前沿中，鴻(hong)溝是含(han)糊的。

　　原文鏈接：

上一篇：CCF HPC China 2022線上參會指南正式發布

下一篇：馬斯克稱未來家用機器人或比汽車便宜！網友：機器人和保姆，哪個性價比更高

四川少扫搡BBw搡BBBB,国产黄色视频在线免费观看,国产羞羞无码视频在线观看免,欧美亚洲日韩二区中文字幕的,亚洲91无码精品一区在线播放

江蘇昊目智能