چگونه یک کامپیوتر یاد میگیرد تا فورا یک شی را بازشناسی کند
متن سخنرانی :
۱۰ سال قبل محققان بینایی ماشین فکر کردند که گفتن فرق بین گربه و سگ به کامپیوتر تقریبا غیرممکن خواهد بود، حتی با پیشرفتهای قابل توجه درهوش مصنوعی. حالا ما میتوانیم این را بادقت بیشتر از ۹۹ درصد انجام بدیم این را دسته بندی تصویر میگویند-- یک تصویر بهش بده و یک برچسب به تصویر بزن-- و کامپیوترها هزاران دسته بندی دیگر رانیز به خوبی میدانند.من دانشجوی ارشد از دانشگاه واشنگتن هستم و مشغول کار روی پروژه دارکنت (شبکه سیاه) که در چارچوب شبکه عصبی است برای آموزش دادن و تست کردنمدلهای بینایی کامیپوتر. خب بیاید به چگونگی فکر کردندارکنت به این تصاویری که داریم، نگاه کنیم. وقتی طبقه بندیمان را روی این تصاویر اجرا میکنیم. میبینیم که فقط پیشبینی سگ یا گربه بودن نیست. در واقع نژاد پیشبینیها را نیز میگوییم. این سطح جزئیاتی است که الان داریم و صحیح است. سگ من در حقیقت مالاموت است.
خب گامهای حیرت آوریدر دسته بندی تصاویر ساختهایم، اما چه اتفاقی میفتدوقتی طبقهبندمان را روی تصویری مثلاین اجرا میکنیم؟ خب... میبینیم که طبقهبند با یکپیشبینی خیلی مشابه باز میگردد. و درسته،یک مالاموت در تصویر وجود دارد، اما فقط یک برچسب داده شده،در واقع خیلی درباره اینکه در تصویرچه رخ داده نمیدانیم. به چیزی قویتری نیاز داریم. من روی یک مسئله کار میکنم که یافتن اشیا نامیده میشود، وقتی به تصویری نگاه می کنیمو سعی در یافتن تمام اشیا داریم، آنها را داخل مستطیلهای نمایش گذاشته و میگوییم که این اشیا چه هستند. خب، این چیزی است که وقتی یابنده را اجرا کنیم اتفاق میافتد.
حالا، با این نتایج، میتوانیم کمی بیشتربا الگوریتمبینای کامپیوترمان کار کنیم. میبینیم همانطور که میدانیدیک گربه و یک سگ وجود دارد. و محلهای نسبی و اندازه آنها را میداند. حتی شاید کمیاطلاعات اضافی نیز بدانیم. در پس زمینه هم یک کتاب قرار دارد. و اگر شما بخواید یک سیستم در صدر بینایی کامپیوتر بسازید، مثل یک خودروی خودران یا یک سیستم رباتیکی، این نوع اطلاعاتی است که میخواهید. چیزی میخواهید که بین شماو دنیای فیزیکی تعامل کند. حالا وقتی من یافتن اشیا را شروع کردم. ۲۰ ثانیه طول کشیدتا تصویر را پردازش کند. و برای اینکه حس کنید چرا سرعت در این حوزه خیلی مهم است، اینجا یک مثال از یافتن اشیا داریم که ۲ ثانیه طول میکشدتا تصویری را پردازش کند. خب این ۱۰ برابر سریعتر از یابنده ۲۰ ثانیه بر تصویر است. و شما این پیشبینیها رامیتوانید همزمان ببینید، کل جهان تغییر کرده است، و این برای یک برنامه خیلی مفید نخواهد بود.
اگر این را با یک فاکتور دیگر۱۰ برابر سریعتر کنیم این یابنده با ۵ فریمبر ثانیه اجرا خواهد شد. این بسیار بهتر است، اما برای مثال، اگر هر حرکت قابل توجهی وجود داشته باشد، نمیخواهم کهسیستمی شبیه این، ماشینم را براند.
این سیستم یابنده ماستکه در زمان حقیقی روی لپ تاپم اجرا میشود. خب به آرامی من را دنبال میکندبطوریکه من دور فریم حرکت میکنم، و این شیوه مواجه با انواعتغییرات در اندازه ژست، رو به جلو،رو به پشت است. این عالیه. این چیزیست که واقعا نیاز داریم اگر بخواهیم سیستمی رادر صدر بینایی کامپیوترها بسازیم.
(تشویق)
خب، ظرف فقط چند سال، ما از ۲۰ ثانیه درتصویر به ۲۰ میلی ثانیه بر تصویر رفتیم،هزار بار سریعتر. چطور به اینجا رسیدیم؟ خب، در گذشته،سیستمهای یافتن اشیا تصویری شبیه این میگرفتند و آن را به بسیاری از مناطق تقسیم میکردند و سپس برای هر یک از این مناطقیک دسته بند را اجرا میکردند و بالاترین امتیاز برای این دسته بندیها به عنوان تصویر یافته شده در نظر گرفته میشد. اما این هزاران بار اجرا کردن یک دسته بندروی یک تصویر را شامل میشد، هزاران شبکه عصبی ارزیابی میکردند تا"یافتن" را تولید کنند. درعوض، ما یک تک شبکه را آموزش دادیمتا کل یافتنها را برای ما انجام دهد. همه باندهای محدود را تولید وهمه احتمالات را با هم کلاس بندی میکند. با یک سیستم، به جای نگاه کردنبه یک تصویر برای هزاران بار برای تولید یافتن شما فقط یک بار نگاه میکنید، و به همین دلیل ما آن رامتد YOLO برای یافتن اشیا نامیدیم. خب، با این سرعتما فقط به یک تصویر محدود نیستیم: همچنین میتوانیم ویدیو را نیز همزمانپردازش کنیم. و حالا، به جای نگاه کردن به گربه و سگ میتوانیم حرکت و تعامل آنهابا یکدیگر را نیز ببینیم.
این یابندهای است که ما در ۸۰ کلاس مختلف دردر دیتاست coco مایکروسافت آموزش دادیم. انواع اشیاء مثل قاشق، چنگال، کاسه را دارد اشیا معمولی مانند این. تنوع عجیب و غریبی از اشیا را دارد: حیوانات، ماشین ها، گورخرها، زرافهها. و حالا میخواهیم یک کار مفرح انجام دهیم. فقط میخواهیم بیایم بیرون در بین مخاطبان و ببینیم چه چیزهایی را میتوانیم بیابیم. آیا کسی یک حیوان پر شده میخواهد؟ تعدادی خرس عروسکی اینجا هست. و ما میتوانیم آستانه خوددر یافتن را کمی کاهش دهیم، خب میتوانیم شما آقایان را دربین مخاطبین پیدا کنیم. ببینیم آیا میتوان این علامتهای ایست را یافت. ما تعدادی کوله پشتی یافتیم بیاید فقط کمی زوم کنیم. و این عالیه. و تمام این اتفاقات در زمان واقعی اتفاق میافتد. روی لپ تاپ.
و مهم است به خاطر داشته باشید که این یک سیستم یابندهاشیا همه منظوره است، خب ما میتوانیم این رابرای هر حوزه تصویری آموزش دهیم. همان کدی است که ما استفاده کردیم تا علامت ایست یا عابرپیاده، دوچرخه در یک خودروی خودران را پیدا کنیم، میتواند برای یافتن سلولهای سرطانی دریک نمونه برداری بافت استفاده شود. و محققانی در سراسر جهان وجود دارند همچنین این سیستم را برای چیزهای پیشرفته مانند داروروباتیک استفاده میکنند. امروز صبح، مقالهای خواندم. جایی یک صحبتی بود از سرشماری حیواناتپارک ملی نایروبی با سیستم YOLO به عنوانیبخشی از این سیستم یابنده. و این به خاطر این است که دارکنت منبع آزاد است ودر حوزه عمومی برایاستفاده همگان آزاد است.
(تشویق)
اما میخواهیم یافتن را حتیدر دسترستر و قابل استفادهتر کنیم بنابراین ازطریق ترکیب مدلهای بهینه شبکه تقسیم بندی شده و تقریبی ما در واقع در حال اجراییافتن اشیا روی گوشی هستیم.
(تشویق)
و من خیلی هیجان زده هستمزیرا حالا یک راه حل خیلی قدرتمند برای این مسئله سطح پایینبینایی کامپیوتر داریم. و هرکسی میتواند این را بردارد و یک چیزی با آن بسازد. خب حالا دیگر بقیه آن به شما و مردم جهان با دسترسی به این نرم افزار بستگی دارد. و من نمیتوانم صبر کنم ببینممردم با این تکنولوژی چه خواهند ساخت.
متشکرم.
(تشویق)