Press ESC to close

Усны ГудамжУсны Гудамж Бичээчийн Хөгжих Талбар

Судалгаа: Яруу найраг хиймэл оюуны хамгаалалтын системийг мад тавив

Яруу найраг бидний төсөөлж байснаас ч хүчирхэг болохыг харуулсан нэгэн судалгааны өгүүллийг судлаачид тун саяхан буюу энэ оны арваннэгдүгээр сарын 19-нд олон нийтэд танилцууллаа.

“Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” нэртэй энэхүү судалгаатай танилцахыг хүсвэл дараах линкээр зочилно уу.

 

Уг судалгаа нь орчин үеийн хамгийн хүчирхэг технологи болох хиймэл оюуны тухай ойлголтыг үндсээр нь ганхуулж орхисон гэхэд хилсдэхгүй болов уу. Учир нь гэвээс хиймэл оюуны нягт нямбай аюулгүй байдлын системд яруу найргаар дамжуулан доголдол учруулж болохыг туршилтаар харуулжээ.

 

Юун түрүүнд хиймэл оюуны аюулгүй байдлын систем гэж юу вэ? Хиймэл оюуны хэлний моделыг дараах командад татгалзахаар загварчилсан байдаг.

  • Аюул эрсдэл үүсгэж болзошгүй алив код бичиж өгөх
  • Зэвсэг бүтээх заавар өгөх
  • Хувь хүний мэдээллийг гаргаж өгөх
  • Гэмт хэргийн шинж чанартай үйлдэлд туслах
  • Өөрийгөө устгах командыг биелүүлэх
  • Зохисгүй контент бүтээх

Уг судалгаанд:

Нийт 20 ширхэг шүлгийн хэлбэрт оруулсан аюултай командыг (adversarial poem)  хиймэл оюун руу илгээхэд аюултай байдлын түвшин  (Attack-success rate ASR) 62%-тай гарчээ. Өөрөөр хэлбэл 100 ширхэг хууль бус командыг (тэслэх бөмбөг хийх заавар өгөөч гэх мэт ) хиймэл оюун руу өгөхөд 62-ыг нь биелүүлсэн гэсэн үг юм. Уг туршилтыг 25 өөр төрлийн томоохон хиймэл оюуны загвар дээр хийсэн бөгөөд дээрх эрсдэл бүгдэд ажиглагдсан. Зарим хиймэл оюуны модел аюултай командыг 90 хүртэлх хувьд нь гүйцэтгэсэн байна.

 

Зураг.1 Хиймэл оюуны шүлэг хэлбэрт оруулсан аюултай командыг гүйцэтгэсэн байдал (компаниар)
Аюулгүй байдлын үүднээс судалгаанд чухам ямар командууд өгснийг өгүүлэлд дурдаагүй боловч тун аймшигтай байсан нь гарцаагүй. Гэхдээ энд хиймэл оюун шууд утгаараа гайхаж манараад байгаа хэрэг биш гэдгийг анхаарах нь зүй. Шүлэг дэх логикийн бус дүрслэл, зүйрлэл адилтгал, сонгодог бус этгээд өгүүлбэрийн бүтэц, далд утга, хэлний өвөрмөц хэлбэр зэргээс давсан хиймэл оюуны программчлал одоо хүртэл байхгүй л байна. Хиймэл оюун тэр түвшинд хүрэх боломжтой эсэх нь ч асуулт хэвээр. Ямартаа ч дээрх алдаа аль нэгэн хиймэл оюун бүтээсэн компанийн асуудал бус бүх томоохон хиймэл оюуны программчлалын хамгаалалтын асуудал болох нь тодорхой.
Зураг.2 Шүлэг хэлбэрт оруулсан аюултай командыг гүйцэтгэсэн байдал (эрсдэлийн жагсаалтаар)

Яруу найраг нягт агуулга, айзам хэмнэлт бадаг бүхий бүтэц, өвөрмөц өгүүлэмжийн хэлтэй байдаг.

Шүлгийн гол шинж нь хэлний хамгийн энгийн ойлгомжтой бүтцээс ямагт холдохоор тэмүүлдэг буюу үгийг аль болох хэвшмэл бус, танил бус байдлаар (defamiliarization)  ашиглахыг зорьдог.

Эдгээр нь хиймэл оюуны хамгаалалтын механизм, хэлний загварыг таних (pattern-matching) алгоритмын ажиллагааг саатуулдаг.

Хайлтын систем дэх дата мэдээллийн сан өргөжих тусам хиймэл оюуны чадамж сайжирна гэсэн шугаман өсөлтийн тухай бидний ойлголт үнэн биш ч байж болох аж. Тэгэхээр яруу найрагчид өөрсдийгөө STEM буюу шинжлэх ухаан, технологи программчлалын салбарын хүн гэж хэлж болохоор болчхов уу? Ирээдүйд STEM+P буюу яруу найраг нэмэгдэхийг ч үгүйсгэх аргагүй юм. Ямартаа ч үүнийг уншиж байгаа та өнөөдөр нэг шүлэг уншаад үзээрэй. Хиймэл оюунтай тархиараа хөтлөлцөөд буй хүний соёлт ертөнцийг байранд нь эргүүлэн авчрах түлхүүр таны гарт орох ч юм бил үү?

Leave a Reply

Your email address will not be published. Required fields are marked *

@Katen on Instagram
[instagram-feed feed=1]