ویکی مدیا می خواهد جستجوی داده های شما را برای شما و توسعه دهندگان آسان تر کند
داگلاس آدامز نویسنده فقید انگلیسی بهتر به عنوان نویسنده کتاب 1979 شناخته می شود راهنمای Hitchhiker برای کهکشانبشر اما در آدامز بسیار بیشتر از آنچه در صدای ویکی پدیا نوشته شده است وجود دارد. اگر شما یا نه نیاز دانستن اینکه علامت تولد وی ماهی است یا اینکه کتابخانه ها در سراسر جهان کتابهای خود را تحت همین مجموعه از شماره ها – 13230702 – شما به خاطر می آورند آب نبات اگر شما را به سمت گوشه غفلت شده از بنیاد ویکی مدیا به نام ویکیداتا می گویید.
در آنجا ، تصاویر ، متن ، کلمات کلیدی و سایر اطلاعات مربوط به آدامز هم در یک صفحه وب و هم برای روبات ها در بین ما ، در قالب های طراحی شده برای دستگاه هایی مانند JSON ذخیره می شوند.
اکنون ، Wikidata در حال بدست آوردن یک پایگاه داده دوستانه جدید برای هوش مصنوعی است که باعث می شود مدلهای بزرگ زبان بتوانند اطلاعات را در نظر بگیرند. این بانک اطلاعاتی از پروژه ادغام ویکی پدیا از فصل آلمانی بنیاد ویکی مدیا ، ویکی مدیا دویچلند ، که نظارت بر ویکیداتا دارد ، تهیه شده است. این تیم مستقر در برلین سال گذشته را با استفاده از یک مدل بزرگ زبانی برای تبدیل 19 میلیون صد در ویکیداتا از داده های ساختاری ساختاری به بردارهایی که زمینه و معنای اطراف صدای ویکیداتا را ضبط می کنند ، گذراند.
در این قالب بردار ، اطلاعات به عنوان نمودار با نقاط و خطوط بهم پیوسته بهتر تصور می شوند – آدامز به “انسان” و عناوین کتابهای خود ، لیدیا پینچر ، سرب ویکیداتا ، متصل می شود. نقطهبشر
در حالی که تجربه کاربر جلوی یکسان باقی خواهد ماند: نه ، ویکی پدیا است نه رهبران پروژه با تبدیل شدن به یک چت بابات ، می گویند: دسترسی به توسعه دهندگان اطلاعات مصنوعی در طول ساخت و ساز آسان تر می شود ، به عنوان مثال ، چت های آنها با استفاده از داده ها.
Pinthescher گفت: هدف از این پروژه ، سطح بازی برای توسعه دهندگان اطلاعات مصنوعی در خارج از موناتو هسته بزرگ فناوری است. شرکت هایی مانند Openai و Anthropic منابع لازم برای بردار ویکیداتا را دارند ، درست مانند Pinthescher و تیم وی. اینها کوچکترین لباس هایی هستند که بیش از دسترسی جدید به داده های چاه که در طاق های ویکیداتا بایگانی شده اند ، سود می برند. “واقعاً ، برای من ، این در مورد دادن آن لبه است و حداقل به آنها فرصتی می دهد ، درست است؟” پینچر گفت.
Govirectory را به عنوان یک پروژه نمونه نشان می دهد که از داده های گسترده ویکیداتا که توسط داوطلبان برای همیشه استفاده می شود ، سوء استفاده کرده است. این پلتفرم به کاربران این امکان را می دهد تا دستگیره های رسانه های اجتماعی و و ایمیل را برای مقامات دولتی در سراسر جهان پیدا کنند.
بیشتر چت های اطلاعاتی مصنوعی اولویت کلمات و موضوعات محبوب در اینترنت است. این تیم علاوه بر ارائه یک فناوری کوچک ، امیدوار است که دسترسی آسان تر به ویکیداتا شامل سیستم های هوش مصنوعی باشد که مباحث طاقچه ای را که به طور گسترده در اینترنت نشان داده نمی شوند ، بهتر منعکس کنند. این می تواند راهی بهتر برای به دست آوردن اطلاعات در ChatGPT باشد ، به عنوان مثال ، به جای “تولید مطالب زیادی و بنابراین دفعه بعد که چتپپ دوباره توسعه یافته است ، و شاید یا شاید ، با در نظر گرفتن آنچه شما در آن کمک کرده اید ، صبر کنید.”
در عمل ، حامل ها به سیستم های هوش مصنوعی اجازه می دهند علاوه بر اطلاعات خود ، به متن اطلاعات نیز دسترسی بیشتری داشته باشند ، وی به فیلیپ سعده ، ویکیداتا در مدیر پروژه گفت ، نقطهبشر
این تیم از مدلی از شرکت Ai Jina AI استفاده کرد تا داده های ساختاری ویکیداتا را که تا 18 سپتامبر 2024 اسیر شده است ، در بردارها تغییر دهد. شرکت IBM DataStax در حال حاضر زیرساخت هایی را برای بایگانی بانک اطلاعاتی بردار به پروژه به صورت رایگان فراهم می کند.
این تیم منتظر بازخورد توسعه دهندگان است که قبل از به روزرسانی آن با اطلاعات اضافه شده در سال گذشته از پایگاه داده استفاده می کنند. در حالی که پایگاه داده فعلی در سال گذشته اطلاعات کاملاً جدیدی را در بر نمی گیرد ، Sadé می گوید که تغییرات کوچک یا تغییر در ویکیداتای موجود ، سودمندی پایگاه داده را کاهش نمی دهد. وی گفت: “در پایان ، حامل مورد نظر ما مانند یک ایده کلی از یک شیء است ، بنابراین اگر یک اصلاح کوچک در ویکیداتا انجام شود ، بسیار مرتبط نخواهد بود.”
منبع: theverge
