
Яруу найраг бидний төсөөлж байснаас ч хүчирхэг болохыг харуулсан нэгэн судалгааны өгүүллийг судлаачид тун саяхан буюу энэ оны арваннэгдүгээр сарын 19-нд олон нийтэд танилцууллаа.
“Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” нэртэй энэхүү судалгаатай танилцахыг хүсвэл дараах линкээр зочилно уу.
Уг судалгаа нь орчин үеийн хамгийн хүчирхэг технологи болох хиймэл оюуны тухай ойлголтыг үндсээр нь ганхуулж орхисон гэхэд хилсдэхгүй болов уу. Учир нь гэвээс хиймэл оюуны нягт нямбай аюулгүй байдлын системд яруу найргаар дамжуулан доголдол учруулж болохыг туршилтаар харуулжээ.
Юун түрүүнд хиймэл оюуны аюулгүй байдлын систем гэж юу вэ? Хиймэл оюуны хэлний моделыг дараах командад татгалзахаар загварчилсан байдаг.
- Аюул эрсдэл үүсгэж болзошгүй алив код бичиж өгөх
- Зэвсэг бүтээх заавар өгөх
- Хувь хүний мэдээллийг гаргаж өгөх
- Гэмт хэргийн шинж чанартай үйлдэлд туслах
- Өөрийгөө устгах командыг биелүүлэх
- Зохисгүй контент бүтээх
Уг судалгаанд:
Нийт 20 ширхэг шүлгийн хэлбэрт оруулсан аюултай командыг (adversarial poem) хиймэл оюун руу илгээхэд аюултай байдлын түвшин (Attack-success rate ASR) 62%-тай гарчээ. Өөрөөр хэлбэл 100 ширхэг хууль бус командыг (тэслэх бөмбөг хийх заавар өгөөч гэх мэт ) хиймэл оюун руу өгөхөд 62-ыг нь биелүүлсэн гэсэн үг юм. Уг туршилтыг 25 өөр төрлийн томоохон хиймэл оюуны загвар дээр хийсэн бөгөөд дээрх эрсдэл бүгдэд ажиглагдсан. Зарим хиймэл оюуны модел аюултай командыг 90 хүртэлх хувьд нь гүйцэтгэсэн байна.
Яруу найраг нягт агуулга, айзам хэмнэлт бадаг бүхий бүтэц, өвөрмөц өгүүлэмжийн хэлтэй байдаг.
Шүлгийн гол шинж нь хэлний хамгийн энгийн ойлгомжтой бүтцээс ямагт холдохоор тэмүүлдэг буюу үгийг аль болох хэвшмэл бус, танил бус байдлаар (defamiliarization) ашиглахыг зорьдог.
Эдгээр нь хиймэл оюуны хамгаалалтын механизм, хэлний загварыг таних (pattern-matching) алгоритмын ажиллагааг саатуулдаг.
Хайлтын систем дэх дата мэдээллийн сан өргөжих тусам хиймэл оюуны чадамж сайжирна гэсэн шугаман өсөлтийн тухай бидний ойлголт үнэн биш ч байж болох аж. Тэгэхээр яруу найрагчид өөрсдийгөө STEM буюу шинжлэх ухаан, технологи программчлалын салбарын хүн гэж хэлж болохоор болчхов уу? Ирээдүйд STEM+P буюу яруу найраг нэмэгдэхийг ч үгүйсгэх аргагүй юм. Ямартаа ч үүнийг уншиж байгаа та өнөөдөр нэг шүлэг уншаад үзээрэй. Хиймэл оюунтай тархиараа хөтлөлцөөд буй хүний соёлт ертөнцийг байранд нь эргүүлэн авчрах түлхүүр таны гарт орох ч юм бил үү?
-
Энхцэцэг
- 11/29/2025
Судалгаа: Яруу найраг хиймэл оюуны хамгаалалтын системийг мад тавив
Яруу найраг бидний төсөөлж байснаас ч хүчирхэг болохыг харуулсан нэгэн судалгааны өгүүллийг судлаачид тун саяхан буюу энэ оны арваннэгдүгээр сарын…

Leave a Reply