四川少扫搡BBw搡BBBB,国产黄色视频在线免费观看,国产羞羞无码视频在线观看免,欧美亚洲日韩二区中文字幕的,亚洲91无码精品一区在线播放

關于我們
谷歌、OpenAI學者談AI:語言模型正在努力“攻克”數學
2024-06-07

  AI究竟(jing)擅沒有善于數學,還得具(ju)體(ti)問(wen)題具(ju)體(ti)分(fen)析。

  若(ruo)是問較量爭(zheng)論機善于什么(me),正在所有(you)的(de)(de)謎底里,數(shu)學必需(xu)榜上有(you)名(ming)。正在履歷了(le)冗長的(de)(de)研(yan)討以后(hou),頂尖學者們(men)正在研(yan)討較量爭(zheng)論機關于數(shu)學較量爭(zheng)論方(fang)面的(de)(de)成長,取得(de)了(le)使人驚奇的(de)(de)成果。

  就拿(na)客歲而言,來源于加州(zhou)大學(xue)伯克利分校(xiao)、OpenAI和Google的(de)(de)(de)研究(jiu)人員正在(zai)言語(yu)模(mo)子層(ceng)面取(qu)得了(le)(le)長足的(de)(de)(de)提高(gao),GPT-3、DALL·E 2等被開辟出來。然而,直到現正在(zai),言語(yu)模(mo)子還(huan)沒(mei)法處理一(yi)些(xie)簡(jian)樸的(de)(de)(de)、用言語(yu)描寫的(de)(de)(de)數學(xue)題目(mu),比(bi)方「Alice比(bi)Bob多五(wu)個(ge)球(qiu),Bob正在(zai)給Charlie四個(ge)球(qiu)后有(you)兩個(ge)球(qiu)。問(wen)Alice有(you)一(yi)些(xie)球(qiu)?」這對言語(yu)模(mo)子而言,想要給出準確謎底,大概(gai)就有(you)點「費勁」了(le)(le)。

  「當我們說計(ji)算機(ji)(ji)異常(chang)善(shan)于(yu)數學時(shi),意義是(shi)它們異常(chang)善(shan)于(yu)特(te)定的、詳(xiang)細的事情,」來源于(yu)谷歌的機(ji)(ji)械進修專(zhuan)家Guy Gur-Ari示意。計(ji)算機(ji)(ji)善(shan)于(yu)算術是(shi)不(bu)(bu)假(jia),但在特(te)定的形式以外,計(ji)算機(ji)(ji)就敬謝不(bu)(bu)敏(min)了,簡樸的文字描述題皆答復免不(bu)(bu)了。

谷歌、OpenAI學者談AI:語言模型正在努力“攻克”數學

  谷(gu)歌研討員Ethan Dyer曾暗示:干數學研討的(de)人有一套僵化的(de)推(tui)理體系,關(guan)于他們熟知(zhi)的(de)和不了解的(de)內容(rong),這(zhe)兩者之(zhi)間擁有較著(zhu)的(de)鴻溝(gou)。

  辦(ban)理(li)文字題目或定量推理(li)題目很辣手(shou),由于(yu)不同于(yu)其他題目,這(zhe)兩者須要(yao)魯(lu)棒性(xing)和嚴謹性(xing)。若是過(guo)程中的任何(he)一步涌現毛(mao)病(bing),將會(hui)招致毛(mao)病(bing)的謎底。DALL·E正在(zai)繪畫層面使人印象深(shen)刻,盡管它(ta)生成(cheng)的圖象有(you)時會(hui)很奇異(yi),大(da)概漏(lou)掉人的手(shou)指、眼睛長得奇異(yi)……這(zhe)一些我們都(dou)能接受,可是它(ta)正在(zai)數學層面涌現了(le)毛(mao)病(bing),我們的容忍(ren)度就(jiu)會(hui)十分(fen)小。來源于(yu)OpenAI的機械進修專家Vineet Kosaraju還曾表(biao)達(da)過(guo)這(zhe)類設法主意,「我們對(dui)言語模(mo)子所犯(fan)的數學毛(mao)病(bing)(好比(bi)將10誤會(hui)為1和0,而不管是10)容忍(ren)性(xing)照(zhao)樣比(bi)較小的。」

  「我們(men)研討(tao)數學僅(jin)僅(jin)是因為我們(men)發(fa)覺它(ta)自力且異常風趣,」OpenAI機械進(jin)修專家(jia)Karl Cobbe說。

  伴隨(sui)著機械進(jin)修模子(zi)(zi)(zi)正在(zai)更大的(de)(de)數(shu)據樣本上鍛煉而(er)成(cheng),它們的(de)(de)魯棒性更好、犯(fan)錯還更少。但擴(kuo)大模子(zi)(zi)(zi)范(fan)圍好像只會(hui)根據定量推理(li)舉行。研究人(ren)員意想到,關于(yu)言語模子(zi)(zi)(zi)所犯(fan)的(de)(de)毛病好像需求更有針對性的(de)(de)方法來處理(li)。

  客歲,加(jia)州大學(xue)(xue)(xue)伯克利分(fen)(fen)校(xiao)和OpenAI的兩個(ge)研(yan)討(tao)團隊分(fen)(fen)離公(gong)布(bu)了數(shu)(shu)據(ju)(ju)集(ji)(ji)MATH和GSM8K,這兩個(ge)數(shu)(shu)據(ju)(ju)集(ji)(ji)包羅多少、代數(shu)(shu)、初等(deng)數(shu)(shu)學(xue)(xue)(xue)等(deng)數(shu)(shu)千個(ge)數(shu)(shu)學(xue)(xue)(xue)題目。「我們(men)想看看這是(shi)(shi)(shi)沒有是(shi)(shi)(shi)是(shi)(shi)(shi)數(shu)(shu)據(ju)(ju)集(ji)(ji)的題目,」處置(zhi)數(shu)(shu)學(xue)(xue)(xue)事情的AI平安(an)中(zhong)間(jian)研(yan)討(tao)員(yuan)Steven Basart說。家喻戶(hu)曉(xiao),言語模子(zi)沒有善于單詞題目,正在這個(ge)題目上它們(men)施展闡發(fa)的有多糟糕,是(shi)(shi)(shi)沒有是(shi)(shi)(shi)能夠根(gen)據(ju)(ju)引入花樣(yang)更(geng)好、更(geng)大的數(shu)(shu)據(ju)(ju)集(ji)(ji)來(lai)處理?

  正(zheng)在MATH數據集(ji)上,頂級言語(yu)模(mo)子的(de)(de)準(zhun)確(que)度(du)為7%,而人類研究生(sheng)的(de)(de)準(zhun)確(que)度(du)為40%,奧林匹克冠(guan)軍的(de)(de)準(zhun)確(que)度(du)為90%。正(zheng)在GSM8K數據集(ji)上(小(xiao)學級此外題(ti)目(mu)),模(mo)子達(da)到了20%的(de)(de)準(zhun)確(que)度(du)。實驗中OpenAI使用了微折衷考證這兩(liang)種(zhong)技能(neng),結果表明模(mo)子能(neng)夠看到許多(duo)本身(shen)毛(mao)病的(de)(de)例子,這一發(fa)明很有價值。

  那時(shi),OpenAI的(de)(de)模子(zi)需(xu)要在100倍以上的(de)(de)數據上開展鍛煉(lian),才能在GSM8K上到達80%的(de)(de)準(zhun)確(que)度。但在本(ben)年6月,谷歌(ge)宣布(bu)了Minerva,到達78%的(de)(de)準(zhun)確(que)度。這一后果超出了預(yu)期,研究者(zhe)表現,比(bi)料想的(de)(de)時(shi)候(hou)來的(de)(de)更(geng)快。

  論文地點:

  Minerva基于谷歌自研的(de)Pathways言語模子(zi)(PaLM),具有(you)更多的(de)數(shu)學數(shu)據集,包(bao)羅(luo)arXiv、LaTeX等數(shu)學花樣。Minerva還采(cai)用了其他戰(zhan)略(lve),正在(zai)思想鏈提醒(chain-of-thought prompting)中(zhong),Minerva將(jiang)更大的(de)題目分(fen)解(jie)成小塊。別的(de),Minerva還運(yun)用大都投票(piao)(majority voting),不全是(shi)請(qing)求模子(zi)給出一個謎(mi)底(di),反(fan)而(er)是(shi)請(qing)求它提出100種(zhong)謎(mi)底(di)。正在(zai)這(zhe)一些謎(mi)底(di)中(zhong),Minerva挑(tiao)選最普(pu)遍(bian)的(de)一種(zhong)謎(mi)底(di)。

  這(zhe)一些新策略(lve)的(de)(de)(de)收(shou)益是偉(wei)大(da)的(de)(de)(de),Minerva正在(zai)(zai)(zai)MATH上(shang)(shang)的(de)(de)(de)準確度(du)高(gao)達50%,正在(zai)(zai)(zai)GSM8K和MMLU(包孕(yun)化(hua)學和生物學正在(zai)(zai)(zai)內的(de)(de)(de)一組更通用的(de)(de)(de)STEM題(ti)目)上(shang)(shang)的(de)(de)(de)準確度(du)靠近80%。當Minerva被請(qing)求重做略(lve)微(wei)調整過的(de)(de)(de)題(ti)目時(shi),它的(de)(de)(de)顯露一樣(yang)很好,這(zhe)表明它的(de)(de)(de)才能不僅(jin)是來源于影(ying)象。

  Minerva大(da)概有(you)奇異(yi)(yi)、紊亂的推理,但仍然得出準確的謎(mi)底。只管像Minerva如許的模子(zi)大(da)概會得出取人類不(bu)(bu)異(yi)(yi)的謎(mi)底,但它們所遵照的現實歷(li)程(cheng)大(da)概大(da)不(bu)(bu)不(bu)(bu)異(yi)(yi)。

  谷歌機(ji)械進修專家Ethan Dyer透露表現,「我以為存(cun)正在(zai)(zai)如許一(yi)種(zhong)看法(fa),即數學相干(gan)人士有一(yi)些嚴厲的推理體(ti)系,領(ling)會某事和不(bu)(bu)領(ling)會某事之(zhi)間存(cun)正在(zai)(zai)顯明的區(qu)分。」但人們給出的謎底不(bu)(bu)一(yi)致,會犯錯誤,還沒(mei)法(fa)使用(yong)焦(jiao)點(dian)觀點(dian)。正在(zai)(zai)機(ji)械進修前沿中,鴻(hong)溝是含(han)糊的。

  原文鏈接: