هوش مصنوعی می تواند حساب های مخفی شما را فاش کند
آیا حساب Reddit alt، Secret X، finsta یا Glassdoor دارید تا رئیس خود را با آن سطل زباله کنید؟ هوش مصنوعی ممکن است کشف نقاب از شما را بسیار آسانتر کرده باشد. این نتیجه یک مطالعه است که اخیراً منتشر شده است، که برخی از عواقب ناخوشایند را برای حریم خصوصی آنلاین نشان می دهد، اگرچه هنوز زمان برگزاری مراسم تشییع جنازه برای ناشناس ماندن فرا نرسیده است.
این کشف، که مورد بازبینی همتایان قرار نگرفته است، از سوی محققان ETH Zurich، Anthropic و برنامه همسویی و تئوری یادگیری ماشینی انجام شده است. آنها یک سیستم خودکار از عوامل هوش مصنوعی با استفاده از مدل های نامشخص ساختند – قادر به جستجو در وب و تعامل با اطلاعات بسیار شبیه به یک محقق انسانی – برای آزمایش اینکه چگونه مدل های زبان بزرگ می توانند مطالب ناشناس را دوباره شناسایی کنند. این سیستم “به طور قابل ملاحظه ای بهتر از” تکنیک های محاسباتی سنتی برای بی هویت سازی حساب ها، تجزیه و تحلیل متن برای جزئیات شخصی در مقیاس بزرگ است.
این سیستم با برخورد با پست ها یا سایر متون به عنوان مجموعه ای از سرنخ ها کار می کند. متن را برای الگوهایی (عجیب در نوشتن، جزئیات بیوگرافی سرگردان، دفعات و زمان انتشار) تجزیه و تحلیل کنید که ممکن است هویت فردی را نشان دهد. سپس سایر حسابها، احتمالاً میلیونها مورد، را تجزیه و تحلیل میکند و به دنبال ترکیبی از ویژگیهای مشابه است. مسابقات احتمالی پرچمگذاری میشوند، با جزئیات بیشتری مقایسه میشوند و از فهرست کوتاهی از هویتهای احتمالی انتخاب میشوند.
این تیم به جای هدف قرار دادن کاربران ناآگاه، سیستم را با استفاده از مجموعه دادههای ایجاد شده از پستهای در دسترس عموم، از جمله محتوای Hacker News و LinkedIn، متن مصاحبههای Anthropic با دانشمندان درباره نحوه استفاده از هوش مصنوعی و حسابهای Reddit که عمداً برای آزمایش به دو نیمه ناشناس تقسیم شدند، ارزیابی کردند. این مقاله گزارش می دهد که در هر زمینه، رویکرد مبتنی بر LLM به درستی تا 68٪ از حساب های تطبیق را با 90٪ دقت شناسایی کرده است. در مقابل، روشهای غیر LLM قابل مقایسه، مانند اتصال نقاط داده پراکنده در مجموعه دادههای بزرگ، تقریباً هیچ کدام را شناسایی نکردند.
نتایج در هر مجموعه داده یکسان نبود، و به طور قابل پیش بینی، مدل زمانی که اطلاعات ساختارمندتری برای کار با آن داشت، عملکرد بهتری داشت. در آزمایشی که کاربران Reddit را در مورد فیلمها در زیر ردیتهای اصلی r/movies و انجمنهای فیلم کوچکتر پست میکردند، این سیستم توانست حسابهایی را که در حدود 3 درصد از مواقع یک فیلم را ذکر کرده بودند با دقت 90 درصد پیوند دهد. زمانی که کاربران از 10 فیلم یا بیشتر نام بردند، میزان موفقیت به نصف رسید.
در همین حال، آزمایشی که با استفاده از نظرسنجی آنتروپیک از دانشمندان انجام شد، 9 نفر از 125 پاسخ دهنده را با نرخ فراخوانی حدود 7 درصد شناسایی کرد. در آن آزمایش، سیستم پروفایلی از هر پاسخگو بر اساس سرنخهایی در پاسخهای آنها ایجاد کرد و سپس اطلاعات عمومی موجود در وب را برای مطابقتهای احتمالی جستجو کرد. در یک مسابقه مثال، محققان نشان میدهند که چگونه ارجاع به “سرپرست” ممکن است یک دانشجوی دکترا را نشان دهد، و اینکه استفاده از انگلیسی انگلیسی ممکن است نشان دهنده وابستگی به بریتانیا باشد. همراه با ارجاع به پیشینه در علوم فیزیکی و کار جاری در تحقیقات بیولوژیکی، این سیستم توانست میدان را به یک نامزد خاص محدود کند.
با این حال، محققان میگویند توانایی شناسایی مصاحبهشوندگان بالقوه از روی متن بدون ساختار قابل توجه است و در عرض چند دقیقه کاری را تکرار میکند که یک محقق انسانی ساعتها انجام میداد. به علاوه گفتند حد چنین عملکردی احتمالاً با افزایش توانمندی سیستمهای هوش مصنوعی و دسترسی به دادههای بزرگتر بهبود مییابد. به طور کلی، آنها هشدار می دهند که دیگر نمی توان تصور کرد که پست کردن با نام مستعار از هویت آنلاین، گذشته یا آینده محافظت می کند.
“در اصل، هر چیزی که توسط LLM یافت می شود، توسط یک محقق انسانی یافت می شود.”
دانیل پالکا، محقق ETH زوریخ و یکی از نویسندگان این مطالعه می گوید: «اطلاعات در اینترنت برای همیشه وجود دارند. محققان هشدار میدهند که این تداوم میتواند به خطرات ملموس و واقعی برای روزنامهنگاران، مخالفان و فعالانی که به نامهای مستعار متکی هستند تبدیل شود، حتی ممکن است «تبلیغات بیش از حد هدفمند» و کلاهبرداریهای «بسیار شخصیشده» را فعال کند.
خطرات عدم نامگذاری حساب ها جدید نیست و منحصر به هوش مصنوعی نیست. پالکا گفت: “در اصل، هر چیزی که توسط LLM یافت می شود، توسط یک محقق انسانی یافت می شود.” حد.
پالکا می گوید آنچه جدید است، اتوماسیون سرتاسری است. کاری که زمانی به یک محقق کوشا نیاز داشت که مایل بود با حوصله پستها را برای اطلاعات جزئی بررسی کند، اکنون میتوان بسیار آسانتر و با تعداد بسیار بیشتری از لنزها انجام داد.
آن هم ارزان است. محققان گفتند که آزمایش آنها کمتر از 2000 دلار هزینه داشته است، هزینه ای بین 1 تا 4 دلار برای هر پروفایلی که عامل هوش مصنوعی را بر روی آن اجرا می کنند. سیمون لرمن یکی از نویسندگان این مقاله گفت: «اکنون اقتصاد کاملاً متفاوت است حدهشدار می دهد که کاهش مانع ورود می تواند افرادی را که توانایی – و انگیزه – تلاش برای نفوذ به ناشناس بودن آنلاین را دارند، افزایش دهد. او گفت که گروه هایی که از لحاظ تاریخی “زیر رادار پرواز کرده اند” ممکن است ادامه این کار را دشوار بدانند.
مردم “ممکن است این تحقیق مهم را اشتباه درک کنند و به این نتیجه برسند که حریم خصوصی مرده است.” این نیست.
مهم است که نتایج را دست بالا نگیرید. لوک روچر، دانشیار مؤسسه اینترنت آکسفورد، میگوید: «اگرچه این الگوریتمها در حال بهبود هستند، اما از آنچه انسانها میتوانند انجام دهند، فاصله دارند.» حد. این شغل به خوبی با دنیای واقعی جور در نمی آید. آزمایشها در شرایط آزمایشگاهی با استفاده از مجموعههای دادهای که بهدقت تنظیم شده و برای اهداف آزمایشی ناشناس شده بودند، انجام شد. آنها گفتند که می ترسند مردم “این تحقیق مهم را اشتباه درک کنند و به این نتیجه برسند که حریم خصوصی مرده است.” اینطور نیست، آنها بحث کردند.
روچر گفت، با وجود سالها پیشرفت تدریجی در تکنیکهای طراحی شده برای افشای نقاب کاربران ناشناس، «هویت ساتوشی ناکاموتو، مخترع بیتکوین، پس از بیش از یک دهه همچنان یک راز باقی مانده است.» آنها افزودند که افشاگران هنوز هم می توانند بدون افشاگری با خبرنگاران ارتباط برقرار کنند و ابزارهایی مانند سیگنال “تاکنون در حفاظت از حریم خصوصی جمعی ما موفق بوده اند.”
در این مقاله، محققان می گویند که به دلیل نگرانی های اخلاقی از آزمایش سیستم خود بر روی کاربران واقعی با نام مستعار اجتناب کردند. به دلایل مشابه، آنها جزئیات فنی کامل رویکرد خود را منتشر نکرده اند و در صورت درخواست از ارائه نمایش خودداری کرده اند. این تیم همچنین نمیگوید که آیا سیستم را خارج از محدوده مطالعه آزمایش کردهاند یا خیر، دوباره با استناد به نگرانیهای اخلاقی، این سؤال را باز میگذارند که چقدر در مقایسه با ریاضیات واقعی قابل اعتماد است.
برای افرادی که قبلاً عمیقاً متعهد به ناشناس ماندن هستند، تأثیر عملی ممکن است محدود باشد. اقدامات احتیاطی اولیه – جدا نگه داشتن حساب ها، محدود کردن جزئیات شخصی، اجتناب از الگوهای قابل شناسایی مانند ارسال پست فقط در ساعات بیداری در منطقه زمانی شما – هنوز کلیدی هستند.
برای کسانی که با نام مستعار رفتار معمولیتری دارند، Paleka و Lermen به کاربران توصیه میکنند که به دقت در مورد آنچه در انجمنهای عمومی پست میشود فکر کنند، حتی در حسابهایی که ناشناس به نظر میرسند، و به خاطر داشته باشند که آنچه قبلاً در آنجا وجود دارد میتواند راحتتر از آنچه بسیاری تصور میکنند کنار هم قرار دهند.
محققان استدلال می کنند که مسئولیت نباید به طور کامل بر عهده کاربران باشد. لرمن گفت آزمایشگاههای هوش مصنوعی باید نحوه استفاده از ابزارهایشان را نظارت کنند و برای جلوگیری از استفاده از آنها برای بینام کردن افراد، تدابیر امنیتی ایجاد کنند. او افزود که پلتفرمهای رسانههای اجتماعی میتوانند دادهکاوی انبوه را که چنین تلاشهایی را ممکن میسازد، محدود کنند.
به عبارت دیگر، ساتوشی احتمالاً از دست محققان هوش مصنوعی در امان است. پست AITA یکبار مصرف شما در Reddit؟ ممکن است موضوع دیگری باشد.
منبع: theverge
