آشنا با lmarena ؛ نبرد هوش مصنوعی با قضاوت میلیون ها کاربر

تیم محتوا۱۹ مرداد ۱۴۰۴۳ دقیقه مطالعه۱۱ بازدید

پلت فرم Lmarna ، Arena سابق Chatbot ، که در ماه مه 2009 آغاز شد و با تکیه بر مقایسه دو رأی گیری ، شهرت پیدا کرد. تیم سازنده متشکل از محققان دانشگاه برکلی بود و امروز این پروژه به یک شرکت مستقل (Arena Intelligence Inc) تبدیل شد. هدف اصلی شکل گیری Lmarna ارزیابی مدل های هوش مصنوعی دنیای واقعی با معیار “ترجیحات انسانی” بود. این پلتفرم سعی می کند شکاف بین توسعه مدل و کیفیت را با یک مکانیسم باز پر کند ، نه اینکه به معیارهای استاتیک که خطر آلودگی داده ها را تحمل می کند یا عدم رعایت استفاده واقعی را بر عهده دارد. از طریق این پلتفرم ، می توانید یک ارزیابی نسبتاً منصفانه و معتبر از کیفیت ، توانایی و رتبه بندی مدلهای مختلف هوش مصنوعی انجام دهید.

LAM ARENA چیست و قسمت ها چیست؟

LMA یک مرکز ارزیابی همه کاره است. در بخش جدول پیشرو ، می توانید بسیاری از برگه ها را برای زمینه های مختلف مشاهده کنید: متن ، WebDev ، Vision ، Text-Mimage ، ویرایش تصویر (ویرایش تصویر) ، جستجو ، مبدل متن (Metin-Video) و دستیار Copilot. این ترتیب نشان می دهد که مقایسه فراتر از “گپ متنی” است و طیف گسترده تری را پوشش می دهد. Lmarena همچنین دارای سه تعامل اصلی “حالت” است: جنگ (دو مدل و رأی دهندگان جنگ ناشناس) ، در کنار هم (انتخاب مدل دستی ؛ آرا به طور رسمی ذکر نشده است) و مستقیم.

1. حالت جنگ (جنگ)

دو مدل به طور ناشناس با یکدیگر روبرو هستند ، پاسخ ها را می بینید و به برنده رای می دهید. بازی شما به طور مستقیم درجه ELO هر مدل را تغییر می دهد و بر رهبر عمومی تأثیر می گذارد. نام های مدل فقط پس از رأی گیری سوابق پدیدار می شوند. تنها رأی داده شده در ناشناس بودن در رتبه بندی محاسبه می شود. پس از هر رأی ، مدل ها به صورت ناشناس مجدداً نمونه برداری می شوند و ممکن است با یک گفتار قراردادی همراه نباشند.

2. حالت در کنار (کنار هم)

شما مدل ها را انتخاب می کنید و “غیر کورن” را مقایسه می کنید. در این حالت ، رأی فقط برای تحقیق جمع آوری شده و هیچ نقشی در رهبر عمومی ندارد (یعنی نمره ELO را تغییر نمی دهد). با این حال ، مراحل و گزینه های شما برای تجزیه و تحلیل تحقیق استفاده می شود.

1. وضعیت تعامل مستقیم

lm2

شما با یک مدل خاص بدون رأی گیری صحبت می کنید “؛ این حالت آزمایش یا استفاده از یک مدل واحد است. مانند حالت SXS ، پیرام ها برای اهداف تحقیق جمع آوری می شوند و هیچ تاثیری در مرتب سازی ندارند.

ستون ها و اعداد لام آرنا چه می گویند؟

رتبه بندی (UB): رتبه بندی ؛ فاصله قابلیت اطمینان به گونه ای طراحی شده است که باعث ایجاد رتبه بندی گمراه کننده جابجایی های کوچک با آراء کم نمی شود.
مدل: نام مدل/نسخه مورد استفاده در Arena واقعاً استفاده می شود.
هدف: نمره ELO بر اساس آراء تطبیقی بشر ؛ برتری و برتری بیشتر در جنگهای مضاعف.
رأی دادن: تعداد آرای معتبر جمع آوری شده برای این مدل. معمولاً پس از حدود 2 رای یا هنگامی که قابلیت اطمینان کافی است ، رتبه وارد جدول کلی می شود.

جدول نهایی ؛ کدام هوش مصنوعی بالاتر است؟

صفحه اصلی جدول در پلت فرم LMA ARNA شامل یک مرور کلی و بخش های جداگانه برای هر منطقه ارزیابی است که قبلاً جزئیات را خوانده اید. برای هر بخش ، آخرین زمان بروزرسانی نیز به روشی شفاف نشان داده شده است.

در زیر هر برگه ، علاوه بر ترتیب کلی ، یک جدول وجود دارد که عملکرد مدل ها را در سناریوهای مختلف نشان می دهد. این سناریوها ، از جمله درخواست های دشوار ، برنامه نویسی ، ریاضیات ، نوشتن خلاق ، دستورالعمل های پیگیری ، پرس و جو طولانی و مکالمات چند مرحله ای. این جدایی به کاربران کمک می کند تا بسته به نوع کاربرد ، قدرت و ضعف هر مدل را بررسی کنند.

lm6

در حال حاضر ، GPT در مجموع رتبه اول را دارد و بهترین هوش مصنوعی برای این پلتفرم محسوب می شود.

lm3

منبع: lmarena

منبع: دیجی‌کالا مگ

تیم محتوا

جدیدترین اخبار حوزه های متنوع تکنولوژی: موبایل، تبلت، لپ تاپ، رباتیک، سخت افزار، شبکه، گجت، امنیت، نجوم و فضانوردی، سیستم های عامل، اپلیکیشن، بازی، خودرو، لوازم خانگی، معماری، عکاسی ، آینده و …

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.