[ad_1]
రెండు సంవత్సరాలుగా, శాన్ఫ్రాన్సిస్కోకు చెందిన ఓపెనాయ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) ను దాని ఉత్పాదక పూర్వ శిక్షణ పొందిన భాషా నమూనాలతో ఆధిపత్యం చేసింది. స్టార్టప్ యొక్క చాట్బాట్ కవితలు రాశారు, దీర్ఘకాల కథలను వ్రాసారు, కోడ్లో దోషాలను కనుగొన్నారు మరియు ఇంటర్నెట్ను శోధించడంలో సహాయపడ్డాయి (కట్ ఆఫ్ తేదీతో ఉన్నప్పటికీ). ప్రపంచవ్యాప్తంగా పొందికైన వాక్యాలను దోషపూరితంగా అడ్డుపడే వినియోగదారులను ఉత్పత్తి చేసే సామర్థ్యం.
దూరంగా, పసిఫిక్ మహాసముద్రం మీదుగా, బీజింగ్లోని, AI లో అమెరికా ఆధిపత్యాన్ని ఎదుర్కోవటానికి చైనా మొదటి ప్రయత్నం చేసింది. మార్చి 2023 లో, బైడు తన AI చాట్బాట్, ఎర్నీని ప్రారంభించడానికి ప్రభుత్వ అనుమతి పొందారు బోట్. బోట్ ప్రారంభించిన ఒక రోజులో 30 మిలియన్లకు పైగా యూజర్ సైన్-అప్లను అందుకున్న తరువాత ఎర్నీ చాట్గ్ట్కు చైనా సమాధానంగా ప్రకటించబడింది.
చైనా అధ్యక్షుడు జి జిన్పింగ్, టియానన్మెన్ స్క్వేర్ అణిచివేత మరియు ఉయ్ఘర్ ముస్లింలపై మానవ హక్కుల ఉల్లంఘన గురించి బోట్ తడబడి, ప్రశ్నలను ఎర్నీ చుట్టూ ప్రారంభ ఆనందం క్రమంగా ఉక్కిరిబిక్కిరి చేసింది. ఈ అంశాలపై ప్రశ్నలకు ప్రతిస్పందనగా, బోట్ ఇలా సమాధానం ఇచ్చారు: “వేరే దాని గురించి మాట్లాడుకుందాం.”
AI పార్టీకి ఆలస్యం
ఎర్నీ చుట్టూ ఉన్న హైప్ చైనీస్ సెన్సార్షిప్ యొక్క వాస్తవికతను కలుసుకున్నందున, కమ్యూనిస్ట్ దేశంలో పెద్ద భాషా నమూనాలను (ఎల్ఎల్ఎంలు) నిర్మించడంలో ఇబ్బందులు ఉన్నాయని పలువురు నిపుణులు ఎత్తి చూపారు. గూగుల్ యొక్క మాజీ సిఇఒ మరియు ఛైర్మన్ ఎరిక్ ష్మిత్, అక్టోబర్ 2023 లో హార్వర్డ్ కెన్నెడీ స్కూల్ ఆఫ్ ప్రభుత్వంలో చర్చలో ఇలా అన్నారు: “వారు [China] పార్టీకి ఆలస్యం అయ్యారు. వారు దీనికి రాలేదు [LLM] AI స్థలం ప్రారంభంలో. ” భాషపై శిక్షణ డేటా లేకపోవడం మరియు ఓపెన్-సోర్స్ ఆలోచనలతో చైనాకు తెలియనిది గ్లోబల్ AI రేసులో చైనీయులను వెనుకబడి ఉంటుందని మిస్టర్ ష్మిత్ ఎత్తి చూపారు.
ఈ చైనీస్ టెక్ దిగ్గజాలు వెనుకబడి ఉండటంతో, యుఎస్ టెక్ దిగ్గజాలు ఎల్ఎల్ఎమ్లలో వారి పురోగతితో ముందుకు సాగారు. మైక్రోసాఫ్ట్-బ్యాక్డ్ ఓపెనై దాని ‘ఓ’ సిరీస్తో కొత్త పంటను రీజనింగ్ చాట్బాట్లను పండించింది, అది చాట్గ్ప్ట్ కంటే మెరుగ్గా ఉంది. ఈ AI నమూనాలు అనుమితి-సమయ స్కేలింగ్ను ప్రవేశపెట్టాయి, ఇది AI మోడల్ సమాధానాలు ఇచ్చేటప్పుడు పెరుగుతున్న డేటాను ఎలా నిర్వహిస్తుందో సూచిస్తుంది.
AI ట్రేడర్ AI బిల్డర్గా మారింది
చైనీస్ టెక్ దిగ్గజాలు క్షీణించినప్పటికీ, జెజియాంగ్ ఆధారిత హెడ్జ్ ఫండ్, హై-ఫ్లైయర్, ట్రేడింగ్ కోసం AI ని ఉపయోగించింది, ఏప్రిల్ 2024 లో దాని స్వంత AI ల్యాబ్, డీప్సీక్ ను ఏర్పాటు చేసింది. ఒక సంవత్సరంలోనే, AI స్పిన్ ఆఫ్ లో డీప్సీక్-V2 ను అభివృద్ధి చేసింది అనేక బెంచ్మార్క్లలో మంచి పనితీరు కనబరిచిన మోడల్ మరియు ఇతర చైనీస్ ఎల్ఎల్ఎంల కంటే తక్కువ ఖర్చుతో సేవను అందించగలిగింది.
ఎప్పుడు డీప్సీక్-వి 3 డిసెంబర్లో ప్రారంభించబడిందిఇది AI కంపెనీలను ఆశ్చర్యపరిచింది. మిశ్రమం-ఆఫ్-ఎక్స్పెర్ట్ (MOE) మోడల్ 14.8 ట్రిలియన్ టోకెన్లపై ముందే శిక్షణ పొందింది, మొత్తం 671 బిలియన్ పారామితులు, వీటిలో ప్రతి టోకెన్కు 37 బిలియన్లు సక్రియం చేయబడతాయి.
MOE మోడల్ భాష లేదా పనుల యొక్క వివిధ అంశాలలో ప్రత్యేకత కలిగిన వేర్వేరు “నిపుణులు” లేదా ఉప-మోడళ్లను ఉపయోగిస్తుంది. మరియు ప్రతి నిపుణుడు ఒక నిర్దిష్ట పనికి సంబంధించినప్పుడు సక్రియం చేయబడతాయి. ఇది మోడల్ను మరింత సమర్థవంతంగా చేస్తుంది, వనరులను ఆదా చేస్తుంది మరియు ప్రాసెసింగ్ను వేగవంతం చేస్తుంది.
అమెరికన్ ఆంక్షలు ఉన్నప్పటికీ శిక్షణ
డిసెంబర్ 26 న విడుదల చేసిన సాంకేతిక కాగితం ప్రకారం, ఎన్విడియా యొక్క హెచ్ 800 జిపియులను ఉపయోగించి డీప్సీక్-వి 3 2.78 మిలియన్ జిపియు గంటలు శిక్షణ పొందింది. ఎన్విడియా యొక్క హెచ్ 100 చిప్లను ఉపయోగించిన మెటా యొక్క లామా 3.1 శిక్షణతో పోల్చినప్పుడు, డీప్సీక్-వి 3 30.8 మిలియన్ జిపియు గంటలు తక్కువ పట్టింది.
డీప్సీక్-వి 3 లో ప్రారంభ విజయాన్ని చూసిన తరువాత, హై-ఫ్లైయర్ దాని అత్యంత అధునాతన రీజనింగ్ మోడళ్లను నిర్మించింది–డీప్సెక్-ఆర్ 1-జీరో మరియు డీప్సీక్-ఆర్ 1–ఇది AI పరిశ్రమకు అత్యంత ఖర్చుతో కూడుకున్న మోడళ్లలో ఒకటిగా నిలిచింది. మార్కెట్.
ఓపెనాయ్ యొక్క O1 తో పోల్చినప్పుడు, డీప్సీక్ యొక్క R1 ఖర్చులను 93% తగ్గిస్తుంది ప్రతి API కాల్. వ్యాపారాలు మరియు డెవలపర్లకు బ్యాంకును విచ్ఛిన్నం చేయకుండా AI ని సమగ్రపరచాలని చూస్తున్న చాలా పెద్ద ప్రయోజనం ఇది.
పొదుపులు అక్కడ ఆగవు. పాత మోడళ్ల మాదిరిగా కాకుండా, R1 హై-ఎండ్ స్థానిక కంప్యూటర్లలో అమలు చేయగలదు-కాబట్టి, ఖరీదైన క్లౌడ్ సేవలు లేదా ఇబ్బందికరమైన రేటు పరిమితులతో వ్యవహరించడం అవసరం లేదు. ఇది మూడవ పార్టీ మౌలిక సదుపాయాలపై ఆధారపడకుండా AI పనులను వేగంగా మరియు చౌకగా నడిపించే స్వేచ్ఛను వినియోగదారులకు ఇస్తుంది.
అదనంగా, R1 మెమరీ సమర్థవంతంగా రూపొందించబడింది, ఎందుకంటే దీనికి RAM యొక్క కొంత భాగం మాత్రమే పనిచేయడానికి అవసరం, ఇది దాని క్యాలిబర్ యొక్క AI కి తక్కువ. విడిగా, బ్యాచింగ్ చేయడం ద్వారా, ఒకేసారి బహుళ పనులను ప్రాసెస్ చేయడం మరియు క్లౌడ్ను ప్రభావితం చేయడం, ఈ మోడల్ ఖర్చులను మరింత తగ్గిస్తుంది మరియు పనితీరును వేగవంతం చేస్తుంది, ఇది విస్తృత శ్రేణి వినియోగదారులకు మరింత ప్రాప్యత చేస్తుంది.
దగ్గరి పోటీ
ఇది ఓపెనాయ్ యొక్క O3 వలె అంతగా అభివృద్ధి చెందకపోవచ్చు, ఇది ఇప్పటికీ O1 తో పోల్చదగిన నాణ్యతను అందిస్తుంది. లైవ్బెంచ్లోని రెండు మోడళ్లపై బెంచ్మార్క్ డేటా ప్రకారం, మొత్తం పనితీరు విషయానికి వస్తే, O1 చైనీస్ మోడల్ యొక్క 71.38 తో పోలిస్తే ప్రపంచ సగటు స్కోరు 75.67 తో R1 ను అంచు చేస్తుంది. ఓపెనాయ్ యొక్క O1 తన పోటీదారుపై దాదాపు తొమ్మిది పాయింట్ల ఆధిక్యంతో తార్కిక పనులపై మంచి పనితీరును కనబరుస్తూనే ఉంది, ఇది సంక్లిష్ట సమస్య పరిష్కార, విమర్శనాత్మక ఆలోచన మరియు భాష-సంబంధిత పనులకు వెళ్ళే ఎంపికగా నిలిచింది.
కోడింగ్, గణితం మరియు డేటా విశ్లేషణ విషయానికి వస్తే, పోటీ చాలా గట్టిగా ఉంటుంది. ప్రత్యేకంగా, డేటా విశ్లేషణలో, పెద్ద డేటాసెట్లను విశ్లేషించడానికి R1 మంచి ఎంపిక అని రుజువు చేస్తుంది.
ఎర్నీ బోట్ను గుర్తుచేసే R1 ఘోరంగా విఫలమయ్యే ఒక ముఖ్యమైన ప్రాంతం చైనాలో సెన్సార్ చేయబడిన అంశాలపై ఉంది. ఉదాహరణకు, చైనా అధ్యక్షుడు జి జిన్పింగ్, టియానన్మెన్ స్క్వేర్ నిరసన మరియు ఉయ్ఘర్ ముస్లింలపై ఏదైనా ప్రశ్నకు, బోట్ తన వినియోగదారులకు ఇలా చెబుతుంది: “వేరే దాని గురించి మాట్లాడుకుందాం.”
ఎర్నీ మాదిరిగా కాకుండా, ఈ సమయంలో, చైనీస్ సెన్సార్షిప్ యొక్క వాస్తవికత ఉన్నప్పటికీ, డీప్సీక్ యొక్క R1 ప్రపంచవ్యాప్తంగా ప్రజాదరణ పొందింది. ఇది ఇప్పటికే ఉంది Chatgpt వంటి ప్రధాన పోటీదారులను అధిగమించారు. స్థూలత మరియు పనితీరు యొక్క R1 యొక్క వాగ్దానం.
చిన్న నమూనాలు పెరుగుతాయి
ఓపెనాయ్ యొక్క O4 అక్కడ అత్యాధునిక AI మోడల్గా కొనసాగుతున్నప్పటికీ, సూపర్ ఇంటెలిజెన్స్ను నిర్మించడంలో ఇతర నమూనాలు ముందడుగు వేయడానికి ముందు ఇది సమయం మాత్రమే.
డీప్సీక్ దాని స్వేదనం ప్రక్రియ ద్వారా, ఇది పెద్ద మోడళ్ల తార్కిక నమూనాలను చిన్న మోడళ్లలోకి సమర్థవంతంగా బదిలీ చేస్తుందని చూపిస్తుంది. దీని అర్థం, ఉపబల అభ్యాసం (RL) ను ఉపయోగించి మొదటి నుండి చిన్న మోడళ్లకు శిక్షణ ఇవ్వడానికి బదులుగా, ఇది గణనపరంగా ఖరీదైనది పెద్ద మోడల్ ద్వారా పొందిన జ్ఞానం మరియు తార్కిక సామర్ధ్యాలు చిన్న మోడళ్లకు బదిలీ చేయవచ్చు, ఫలితంగా మెరుగైన పనితీరు వస్తుంది.
దాని సాంకేతిక కాగితంలో, డీప్సీక్ స్వేదన నమూనాల పనితీరును పెద్ద ఎత్తున RL ను ఉపయోగించి శిక్షణ పొందిన మోడళ్లతో పోలుస్తుంది. స్వేదనం చేసినవి స్వేదనం లేకుండా పెద్ద ఎత్తున RL తో శిక్షణ పొందిన చిన్న మోడళ్లను అధిగమిస్తాయని ఫలితాలు సూచిస్తున్నాయి. ప్రత్యేకించి, పెద్ద ఎత్తున RL తో శిక్షణ పొందిన 32 బిలియన్ పారామితి బేస్ మోడల్ QWQ-32B-PREVIEW తో సమానంగా పనితీరును సాధించింది, అయితే స్వేదన సంస్కరణ, డీప్సీక్-R1- డిస్టిల్-క్వెన్ -32 బి, అన్ని బెంచ్మార్క్లలో గణనీయంగా మెరుగ్గా పనిచేసింది. (క్వెన్ అలీబాబా క్లౌడ్లోని LLM కుటుంబంలో భాగం.)
సారాంశంలో, ఇది అనుమానం అంచుకు మారగలదని, AI మౌలిక సదుపాయాల సంస్థల ప్రకృతి దృశ్యాన్ని మార్చడం వల్ల మరింత సమర్థవంతమైన నమూనాలు కేంద్రీకృత డేటా సెంటర్లపై ఆధారపడటాన్ని తగ్గించగలవు.
AI జాతి యొక్క భవిష్యత్తు
అధిక పనితీరును సాధించడానికి చిన్న మోడళ్లను ప్రారంభించడానికి స్వేదనం ఒక శక్తివంతమైన పద్ధతి అయితే, దీనికి పరిమితులు ఉన్నాయి. ఉదాహరణకు, స్వేదన నమూనాలు “టీచర్” మోడల్తో ముడిపడి ఉన్నందున, పెద్ద మోడళ్లలో పరిమితులు కూడా చిన్న వాటికి బదిలీ చేయబడతాయి. అలాగే, స్వేదన నమూనాలు పెద్ద మోడల్ యొక్క పూర్తి స్థాయి సామర్థ్యాలు లేదా సూక్ష్మ నైపుణ్యాలను ప్రతిబింబించలేకపోవచ్చు. ఇది సంక్లిష్టమైన లేదా బహుముఖ పనులలో స్వేదన మోడల్ పనితీరును ప్రభావితం చేస్తుంది.
ఇప్పటికే ఉన్న జ్ఞానాన్ని బదిలీ చేయడానికి స్వేదనం ఒక ప్రభావవంతమైన సాధనం, కానీ ఇది AI లో ప్రధాన నమూనా మార్పులకు మార్గం కాకపోవచ్చు. అంటే, GPU ల యొక్క అవసరం కంపెనీలను మరింత శక్తివంతమైన తెలివైన మోడళ్లుగా మాత్రమే పెంచుతుంది.
డీప్సీక్ యొక్క R1 మరియు Openai ‘O1 వాస్తవానికి పనిచేస్తున్న మొదటి రీజనింగ్ మోడల్స్. మరియు R1 తార్కికం కోసం RL ను ఉపయోగించిన మొదటి విజయవంతమైన డెమో. ఇక్కడ నుండి, శిక్షణ, రన్నింగ్ ప్రయోగాలు మరియు ఏజెంట్లను సృష్టించడానికి అధునాతన పద్ధతులను అన్వేషించడానికి మరింత కంప్యూట్ శక్తి అవసరం. పనితీరును మెరుగుపరచడానికి గణనను ప్రభావితం చేయడానికి అనేక మార్గాలు ఉన్నాయి, మరియు ప్రస్తుతం, అమెరికన్ కంపెనీలు దీన్ని చేయడానికి మంచి స్థితిలో ఉన్నాయి, వారి పెద్ద స్థాయికి మరియు మరింత శక్తివంతమైన చిప్లకు ప్రాప్యత.
ప్రచురించబడింది – జనవరి 28, 2025 03:31 PM
[ad_2]