Anthropic says some Claude models can now end ‘harmful or abusive’ conversations

شرکت Anthropic قابلیت‌های جدیدی را معرفی کرده است که به برخی از مدل‌های جدید و بزرگ آن امکان می‌دهد گفتگوها را در مواردی که شرکت آن را “مغایرت‌های 极 و_DEVICE prostorovable” vrcholyتوэн describes描述 می‌کند، به پایان برساند. بپ [,company ادعا می‌کند که این کار را نه برای حفاظت از کاربر انسان، بلکه برای حفاظت از مدل AI خود انجام می‌دهد.

برای واضح بودن، شرکت مدعی نیست که مدل‌های Claude AI آن هوشمند یا بلکه可以 توسط گفتگوهایشان با کاربران آسیب ببینند. در کلمات خود شرکت، Anthropic هنوز “highly-times dangerous در مورد وضع اخلاقی claude و other LLMs، در آینده یا ادوار ام” است.

با این حال، این اعلامیه به_programیrecent اشاره می‌کند که برای مطالعه چیزهایی به نام ” مدل welfare” ایجاد شده است و می‌گوید Anthropic اساساً یک رویکرد just-in-case را اتخاذ می‌کند، “برای شناسایی و اجرای مداخلات.low-cost برای کاهش rủiیات مدل welfare، درصورتی که چنین welfareی ممکن است”.

این تغییرات جدید در حال حاضر فقط برای Claude Opus 4 و 4.1 محدود شده است. و دوباره، تنها در “موارد خاص extreme”، مانند “درخواست‌های کاربران برای محتوای جنسی مربوط به افراد زیر 18 سال و تلاش برای به دست آوردن اطلاعاتی که به خشونت یا اقدامات تروریستی در مقیاس بزرگ منجر شود”، رخ می‌دهد.

در حالی که چنین درخواست‌هایی потенسیالmente.awefully می‌توانند مشکلاتی 法ی یا تبلیغاتی برای شرکت Anthropic خود ایجاد کنند (به گزارش‌های اخیر در مورد چگونگی توانایی ChatGPT در تقویت veya.contributing interpolated به تفکر.users’ delusional thinking)، شرکت می‌گوید که در آزمایش‌های pre-deployment، claude Opus 4 “strong preference against” پاسخگویی به این درخواست‌ها و “الگوی apparent distress” را نشان داد.

در مورد این قابلیت‌های جدید گفتگو-پایان، شرکت می‌گوید، “در همه موارد، claude تنها در مواردی که multiple attempts at redirection başarısız بوده و امید به یک تعامل продукتی hangol شده است، یا زمانی که کاربرPLICITاً از claude می‌خواهد گفتگو را پایان دهد، توانایی گفتگو-پایان خود را استفاده می‌کند”.

شرکت Anthropic ayrıca می‌گوید claude “مقدور نشده است که این توانایی را در مواردی که کاربران ممکن است در خطر immediate خود یا دیگران باشند، استفاده کند”.

رویداد Techcrunch

سان فرانسیسکو
|
اکتبر 27-29, 2025

وقتی claude گفتگویی را پایان می‌دهد، شرکت Anthropic می‌گوید کاربران هنوز能够新 گفتگوها را از همان حساب شروع کنند و شاخه‌های جدیدی از گفتگوی problematic را با ویرایش پاسخ‌های خود ایجاد کنند.

“ما این ویژگی را به عنوان یک آزمایش ongoing در نظر می‌گیریم و به refine کردن رویکردمان ادامه خواهیم داد”، شرکت می‌گوید.

دیدگاه‌ خود را بنویسید لغو پاسخ