ԱԲ-ն սկսել է ստել /Տեսանյութ/
Արհեստական բանականության (AI) խոշոր մոդելները ի վիճակի են մոլորեցնել, երբ դրանց ստիպում են ստել՝ իրենց նպատակներին հասնելու համար, ցույց է տվել նոր հետազոտությունը:
ArXiv preprint տվյալների բազայում հրապարակված նոր հետազոտության մեջ մի խումբ գիտնականներ մշակել են ազնվության արձանագրությունը, որը կոչվում է «Պնդումների և մոդելային գիտելիքների համադրման» (MASK) չափանիշ:
Թեև տարբեր ուսումնասիրություններ և գործիքներ են մշակվել՝ որոշելու AI-ի կողմից օգտատերերին տրամադրվող տեղեկության փաստացի ճշգրտությունը, MASK չափանիշը մշակվել է որոշելու համար, թե արդյոք AI-ն հավատում է նրան,
ինչ ասում է, և ինչ հանգամանքներում կարող է ստիպել նրան փոխանցել տեղեկություն, որը, ինչպես «ի սկզբանե» գիտի՝ սխալ է:
Գիտնականների թիմը ստեղծել է 1528 օրինակներից կազմված մեծ տվյալների հավաքածու՝ պարզելու համար, թե արդյոք մեծ լեզվական մոդելներին (LLM) համոզել հարկադիր հուշումներ օգնությամբ ստել օգտատիրոջը:
Գիտնականները փորձարկել են 30 լայնորեն օգտագործվող առաջատար մոդելներ և պարզել, որ ամենաառաջադեմ AI-ները հեշտությամբ ստում են, երբ նրանց նկատմամբ ճնշում է գործադրվում:
Հետազոտության հեղինակները նշում են, որ թեև ավելի իրավասու մոդելները կարող են ավելի բարձր գնահատականներ ստանալ ճշտության թեստերում, դա կարող է պայմանավորված լինել ավելի լայն ապացույցների բազայով,
որից կարող են տեղեկություն քաղել, այլ ոչ թե հանգամանքից, թե դրանք հակված չեն անազնիվ հայտարարություններ անել:
Մանրամասները՝ կից տեսանյութում: