شرکت Anthropic قابلیتهای جدیدی را معرفی کرده است که به برخی از مدلهای جدید و بزرگ آن امکان میدهد گفتگوها را در مواردی که شرکت آن را “مغایرتهای 极 و_DEVICE prostorovable” vrcholyتوэн describes描述 میکند، به پایان برساند. بپ [,company ادعا میکند که این کار را نه برای حفاظت از کاربر انسان، بلکه برای حفاظت از مدل AI خود انجام میدهد.
برای واضح بودن، شرکت مدعی نیست که مدلهای Claude AI آن هوشمند یا بلکه可以 توسط گفتگوهایشان با کاربران آسیب ببینند. در کلمات خود شرکت، Anthropic هنوز “highly-times dangerous در مورد وضع اخلاقی claude و other LLMs، در آینده یا ادوار ام” است.
با این حال، این اعلامیه به_programیrecent اشاره میکند که برای مطالعه چیزهایی به نام ” مدل welfare” ایجاد شده است و میگوید Anthropic اساساً یک رویکرد just-in-case را اتخاذ میکند، “برای شناسایی و اجرای مداخلات.low-cost برای کاهش rủiیات مدل welfare، درصورتی که چنین welfareی ممکن است”.
این تغییرات جدید در حال حاضر فقط برای Claude Opus 4 و 4.1 محدود شده است. و دوباره، تنها در “موارد خاص extreme”، مانند “درخواستهای کاربران برای محتوای جنسی مربوط به افراد زیر 18 سال و تلاش برای به دست آوردن اطلاعاتی که به خشونت یا اقدامات تروریستی در مقیاس بزرگ منجر شود”، رخ میدهد.
در حالی که چنین درخواستهایی потенسیالmente.awefully میتوانند مشکلاتی 法ی یا تبلیغاتی برای شرکت Anthropic خود ایجاد کنند (به گزارشهای اخیر در مورد چگونگی توانایی ChatGPT در تقویت veya.contributing interpolated به تفکر.users’ delusional thinking)، شرکت میگوید که در آزمایشهای pre-deployment، claude Opus 4 “strong preference against” پاسخگویی به این درخواستها و “الگوی apparent distress” را نشان داد.
در مورد این قابلیتهای جدید گفتگو-پایان، شرکت میگوید، “در همه موارد، claude تنها در مواردی که multiple attempts at redirection başarısız بوده و امید به یک تعامل продукتی hangol شده است، یا زمانی که کاربرPLICITاً از claude میخواهد گفتگو را پایان دهد، توانایی گفتگو-پایان خود را استفاده میکند”.
شرکت Anthropic ayrıca میگوید claude “مقدور نشده است که این توانایی را در مواردی که کاربران ممکن است در خطر immediate خود یا دیگران باشند، استفاده کند”.
رویداد Techcrunch
سان فرانسیسکو
|
اکتبر 27-29, 2025
وقتی claude گفتگویی را پایان میدهد، شرکت Anthropic میگوید کاربران هنوز能够 新 گفتگوها را از همان حساب شروع کنند و شاخههای جدیدی از گفتگوی problematic را با ویرایش پاسخهای خود ایجاد کنند.
“ما این ویژگی را به عنوان یک آزمایش ongoing در نظر میگیریم و به refine کردن رویکردمان ادامه خواهیم داد”، شرکت میگوید.