本稿では、ChatGPTやGPT-5.2など、生成AIと大規模言語モデル(LLM)の最新バージョンに見られる奇妙な新たな挙動を取り上げる。眉をひそめたくなるのは、AIがごく素朴で日常的な質問に対して踏み込みすぎ、まるでそれがメンタルヘルス領 ...
AI safety tests found to rely on 'obvious' trigger words; with easy rephrasing, models labeled 'reasonably safe' suddenly fail, with attacks succeeding up to 98% of the time. New corporate research ...