چگونه یک کامپیوتر یاد می‌گیرد تا فورا یک شی را بازشناسی کند

متن سخنرانی :
۱۰ سال قبل محققان بینایی ماشین فکر کردند که گفتن فرق بین گربه و سگ به کامپیوتر تقریبا غیرممکن خواهد بود، حتی با پیشرفت‌های قابل توجه درهوش مصنوعی. حالا ما می‌توانیم این را بادقت بیشتر از ۹۹ درصد انجام بدیم این را دسته بندی تصویر می‌گویند-- یک تصویر بهش بده و یک برچسب به تصویر بزن-- و کامپیوترها هزاران دسته بندی دیگر رانیز به خوبی می‌دانند.
من دانشجوی ارشد از دانشگاه واشنگتن هستم و مشغول کار روی پروژه‌ دارک‌نت (شبکه سیاه) که در چارچوب شبکه عصبی است برای آموزش دادن و تست کردنمدلهای بینایی کامیپوتر. خب بیاید به چگونگی فکر کردندارک‌نت به این تصاویری که داریم، نگاه کنیم. وقتی طبقه بندیمان را روی این تصاویر اجرا می‌کنیم. می‌بینیم که فقط پیش‌بینی سگ یا گربه بودن نیست. در واقع نژاد پیش‌بینی‌ها را نیز می‌گوییم. این سطح جزئیاتی است که الان داریم و صحیح است. سگ من در حقیقت مالاموت است.
خب گام‌های حیرت آوریدر دسته بندی تصاویر ساخته‌ایم، اما چه اتفاقی میفتدوقتی طبقه‌بندمان را روی تصویری مثلاین اجرا می‌کنیم؟ خب... می‌بینیم که طبقه‌بند با یکپیش‌بینی خیلی مشابه باز میگردد. و درسته،یک مالاموت در تصویر وجود دارد، اما فقط یک برچسب داده شده،در واقع خیلی درباره اینکه در تصویرچه رخ داده نمیدانیم. به چیزی قویتری نیاز داریم. من روی یک مسئله کار می‌کنم که یافتن اشیا نامیده می‌شود، وقتی به تصویری نگاه می کنیمو سعی در یافتن تمام اشیا داریم، آنها را داخل مستطیلهای نمایش گذاشته و می‌گوییم که این اشیا چه هستند. خب، این چیزی است که وقتی یابنده را اجرا کنیم اتفاق میافتد.
حالا، با این نتایج، میتوانیم کمی بیشتربا الگوریتمبینای کامپیوترمان کار کنیم. میبینیم همانطور که می‌دانیدیک گربه و یک سگ وجود دارد. و محلهای نسبی و اندازه آنها را می‌داند. حتی شاید کمیاطلاعات اضافی نیز بدانیم. در پس زمینه هم یک کتاب قرار دارد. و اگر شما بخواید یک سیستم در صدر بینایی کامپیوتر بسازید، مثل یک خودروی خودران یا یک سیستم رباتیکی، این نوع اطلاعاتی است که می‌خواهید. چیزی می‌خواهید که بین شماو دنیای فیزیکی تعامل کند. حالا وقتی من یافتن اشیا را شروع کردم. ۲۰ ثانیه طول کشیدتا تصویر را پردازش کند. و برای اینکه حس کنید چرا سرعت در این حوزه خیلی مهم است، اینجا یک مثال از یافتن اشیا داریم که ۲ ثانیه طول می‌کشدتا تصویری را پردازش کند. خب این ۱۰ برابر سریعتر از یابنده ۲۰ ثانیه بر تصویر است. و شما این پیش‌بینی‌ها رامی‌توانید همزمان ببینید، کل جهان تغییر کرده است، و این برای یک برنامه خیلی مفید نخواهد بود.
اگر این را با یک فاکتور دیگر۱۰ برابر سریعتر کنیم این یابنده با ۵ فریمبر ثانیه اجرا خواهد شد. این بسیار بهتر است، اما برای مثال، اگر هر حرکت قابل توجهی وجود داشته باشد، نمی‌خواهم کهسیستمی شبیه این، ماشینم را براند.
این سیستم یابنده ماستکه در زمان حقیقی روی لپ تاپ‌م اجرا می‌شود. خب به آرامی من را دنبال می‌کندبطوریکه من دور فریم حرکت می‌کنم، و این شیوه مواجه با انواعتغییرات در اندازه ژست، رو به جلو،رو به پشت است. این عالیه. این چیزیست که واقعا نیاز داریم اگر بخواهیم سیستمی رادر صدر بینایی کامپیوترها بسازیم.
(تشویق)
خب، ظرف فقط چند سال، ما از ۲۰ ثانیه درتصویر به ۲۰ میلی ثانیه بر تصویر رفتیم،هزار بار سریعتر. چطور به اینجا رسیدیم؟ خب، در گذشته،سیستم‌های یافتن اشیا تصویری شبیه این می‌گرفتند و آن را به بسیاری از مناطق تقسیم می‌کردند و سپس برای هر یک از این مناطقیک دسته بند را اجرا می‌کردند و بالاترین امتیاز برای این دسته بندیها به عنوان تصویر یافته شده در نظر گرفته میشد. اما این هزاران بار اجرا کردن یک دسته بندروی یک تصویر را شامل می‌شد، هزاران شبکه عصبی ارزیابی می‌کردند تا"یافتن" را تولید کنند. درعوض، ما یک تک شبکه را آموزش دادیمتا کل یافتنها را برای ما انجام دهد. همه باندهای محدود را تولید وهمه احتمالات را با هم کلاس بندی می‌کند. با یک سیستم، به جای نگاه کردنبه یک تصویر برای هزاران بار برای تولید یافتن شما فقط یک بار نگاه می‌کنید، و به همین دلیل ما آن رامتد YOLO برای یافتن اشیا نامیدیم. خب، با این سرعتما فقط به یک تصویر محدود نیستیم: همچنین می‌توانیم ویدیو را نیز همزمانپردازش کنیم. و حالا، به جای نگاه کردن به گربه و سگ می‌توانیم حرکت و تعامل آنهابا یکدیگر را نیز ببینیم.
این یابنده‌ای است که ما در ۸۰ کلاس مختلف دردر دیتاست coco مایکروسافت آموزش دادیم. انواع اشیاء مثل قاشق، چنگال، کاسه را دارد اشیا معمولی مانند این. تنوع عجیب و غریبی از اشیا را دارد: حیوانات، ماشین ها، گورخرها، زرافه‌ها. و حالا میخواهیم یک کار مفرح انجام دهیم. فقط میخواهیم بیایم بیرون در بین مخاطبان و ببینیم چه چیزهایی را می‌توانیم بیابیم. آیا کسی یک حیوان پر شده می‌خواهد؟ تعدادی خرس عروسکی اینجا هست. و ما میتوانیم آستانه خوددر یافتن را کمی کاهش دهیم، خب می‌توانیم شما آقایان را دربین مخاطبین پیدا کنیم. ببینیم آیا میتوان این علامتهای ایست را یافت. ما تعدادی کوله پشتی یافتیم بیاید فقط کمی زوم کنیم. و این عالیه. و تمام این اتفاقات در زمان واقعی اتفاق میافتد. روی لپ تاپ.
و مهم است به خاطر داشته باشید که این یک سیستم یابندهاشیا همه منظوره است، خب ما میتوانیم این رابرای هر حوزه تصویری آموزش دهیم. همان کدی است که ما استفاده کردیم تا علامت ایست یا عابرپیاده، دوچرخه در یک خودروی خودران را پیدا کنیم، میتواند برای یافتن سلولهای سرطانی دریک نمونه برداری بافت استفاده شود. و محققانی در سراسر جهان وجود دارند همچنین این سیستم را برای چیزهای پیشرفته مانند داروروباتیک استفاده می‌کنند. امروز صبح، مقاله‌ای خواندم. جایی یک صحبتی بود از سرشماری حیواناتپارک ملی نایروبی با سیستم YOLO به عنوانیبخشی از این سیستم یابنده. و این به خاطر این است که دارکنت منبع آزاد است ودر حوزه عمومی برایاستفاده همگان آزاد است.
(تشویق)
اما می‌خواهیم یافتن را حتیدر دسترس‌تر و قابل استفاده‌تر کنیم بنابراین ازطریق ترکیب مدلهای بهینه شبکه تقسیم بندی شده و تقریبی ما در واقع در حال اجراییافتن اشیا روی گوشی هستیم.
(تشویق)
و من خیلی هیجان زده هستمزیرا حالا یک راه حل خیلی قدرتمند برای این مسئله سطح پایینبینایی کامپیوتر داریم. و هرکسی می‌تواند این را بردارد و یک چیزی با آن بسازد. خب حالا دیگر بقیه آن به شما و مردم جهان با دسترسی به این نرم افزار بستگی دارد. و من نمی‌توانم صبر کنم ببینممردم با این تکنولوژی چه خواهند ساخت.
متشکرم.
(تشویق)

دیدگاه شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *