دادۀ بزرگ، دادۀ بهتری است
متن سخنرانی :
شیرینی پایِ مورد علاقۀ آمریکایی ها چیه؟حضار: سیبه.کنث کوکی اِر: البته که سیبه! از کجا می دونیم؟ به خاطر داده ها. از مشاهدۀ فروش فروشگاه ها. از مشاهدۀ فروش پای های ۳۰ سانتی متریِ منجمددر فروشگاه ها و بدون هیچ مسابقه ای، سیب برنده س. اکثریت فروش متعلق به سیبه. فروشگاه ها شروع کردن به فروش پای کوچک تر، پای ۱۱ سانتی متری، و ناگهان سیب به مکان چهارم یا پنجم تنزل کرد. چرا؟ چه اتفاقی افتاد؟ بهش فکر کنید. وقتی شما پای ۳۰ سانتی متری می خرید، همه ی خانواده باید موافق باشند، و سیب، انتخابِ دوم همه ست. (خنده ی حضار) اما وقتی پای یک نفره ی ۱۱ سانتی متری می خرید، می تونید اونی رو که دوست دارید بخرید. می تونید انتخاب اول تون رو بخرید. داده های بیشتری دارید. می تونید چیزی رو ببینید که وقتی مقدار کم تری از اون رو داشتید نمی دیدید.
نکته اینجاست که داده های بیشتر فقط دیدِ وسیع تر نمی دن، داده های بیشترِ آنچه بهش نگاه می کردیم؛ داده های بیشتر به ما اجازه می دهندتازه ها رو ببینیم. اجازه می دهند بهتر ببینیم. اجازه می دهند متفاوت ببینیم. در این مورد به ما اجازه می دهند پای مورد علاقه ی آمریکایی ها رو ببینیم: که سیب نیست!
احتمالاً همۀ شما واژۀ دادۀ بزرگ رو شنیدید. در واقع حالتون از شنیدن این واژه به هم می خوره. واقعیته که اعتیاد زیادی به این واژه وجود داره، و این خیلی ناراحت کننده ست، چون دادۀ بزرگ، ابزار بسیار مهمیه برای پیشرفت جامعه. در گذشته، ما به داده های کوچک نگاه می کردیم و فکر می کردیم چطور می شه دنیا رو درک کرد، و حالا ما کلی از اون داریم، خیلی بیشتر از آنچه در گذشته داشتیم. چیزی که متوجه می شیم اینه که وقتی مقدار زیادی داده داریم،اساساً قادر به انجام کارهایی هستیم که با داشتن داده های کم نمی تونستیم. دادۀ بزرگ مهمه، و دادۀ بزرگ جدیده، و وقتی بهش فکر می کنید، تنها راهِ رویارویی این سیاره با چالش های جهانیش، تغذیۀ مردم، تامین بهداشت شون، تامین انرژی، الکتریسیته، اطمینان از جزغاله نشدن شون به خاطر گرم شدن کرۀ زمین؛ به دلیل استفادۀ موثر از داده هاست.
خُب نکتۀ جدید در مورد دادۀ بزرگ چیه؟نکتۀ قابل توجه؟ خُب... برای پاسخ به این سوالبه این فکر کنید که اطلاعات چه شکلی بوده، در گذشته و به صورت فیزیکی. در سال ۱۹۰۸، بر روی جزیرۀ کِرِت، باستان شناسان لوحی رُسی کشف کردند. عمر آن را ۲۰۰۰ سال قبل از میلاد تخمین زدند،یعنی ۴۰۰۰ سال. نوشته هایی روی این لوح هست، اما اِشرافی به معانیش نداریم. کاملاً یک رازه. اما نکته اینه که اطلاعات به این شکل بودند ۴۰۰۰ سال پیش. جامعه اطلاعات رو به این شکل نگهداری و منتقل می کرد.
امروز، جامعه آنقدرها پیشرفت نکرده. ما هنوز اطلاعات رو در لوح ها ذخیره می کنیم. اما امروز ما می تونیم بیشتر اطلاعات ذخیره کنیم، بیشتر از گذشته. جستجوش راحت تر شده، و کپی کردنش... پردازش و به اشتراک گذاشتنش. ما می تونیم دوباره از این اطلاعات استفاده کنیم برای مصارفی که وقتی مشغول جمع آوری داده ها بودیم حتا تصورش رو هم نمی کردیم. به همین منوال، داده تغییر کرد از سکون به جریان، از چیزی راکد و بی حرکت، به چیزی سیال و متحرک. اگر بخواهید، متوجه سیالیت اطلاعات می شید. لوح مکشوفه از کِرِت چهار هزار ساله ست، و سنگین، ظرفیت زیادی نداره، و این اطلاعات متغییر نیست. از سوی دیگر، کل فایل هایی که اِدوارد اِسنودِن از آژانس امنیت ملی آمریکا به سرقت برد روی یک حافظۀ فلش به اندازۀ ناخن بود. و به سرعت نور تکثیر می شه. داده های بیشتر... بیشتر.
یکی از دلایل وجود خیل اطلاعات امروز جمع آوری چیزهایی ست که ما همیشه اطلاعات را روی آنها جمع می کردیم؛ دلیل دیگر این که ما چیزهایی جمع آوری می کنیم که همیشه جنبۀ اطلاعاتی داشته اند اما هرگز به قالب داده تبدیل نشده اند و ما آنها را به داده تبدیل می کنیم. برای مثال به موقعیت چغرافیایی فکر کنید. مثلاً مارتین لوثِر. اگر بخواهیم بدونیم سال ۱۵۰۰ مارتین لوثر کجا بوده، باید همیشه دنبالش می کردیم، شاید با یک قلم پر و یک دوات، تا ثبتش کنیم. اما فکر کنید امروز چگونه است. می دونید در جایی، احتمالاً در پایگاه دادۀ یک شرکت مخابراتی، صفحه گسترده یا حداقل پایگاه داده ای وجود دارد که اطلاعات را ذخیره می کند همۀ مکان هایی که آنجا بوده اید. اگر تلفن همراه داشته باشید، و تلفن شما جی.پی.اس داشته باشد،یا حتا نداشته باشد، اطلاعات شما را ذخیره می کند. به این ترتیب، موقعیت جغرافیایی به داده بدل می شه.
حالا برای مثال به موردِ حالت بدن فکر کنید. جوری که الان نشسته اید. جوری که شما نشستید، جوری که شما نشستید، جوری که شما نشستید، کاملاً متفاوته، و مربوط به طول پاهاتون و پشت، و خطوط پشت، و اگه الان حسگر وصل بود، شاید ۱۰۰ تا به صندلی هاتون، می تونستم نموداری مختص شما ایجاد کنم. چیزی شبیه اثر انگشت! ولی اثر انگشت شما نیست.
خُب این کار چه فایده ای برامون داره؟ محققان در توکیو، از اون به عنوان یک دستگاه ضد سرقت خودرو استفاده می کنند. به این شکل که دزد پشت فرمون می شینه، سعی می کنه خودرو رو بدزده، و خودرو تشخیص می ده که راننده، ذیصلاح نیست. و ممکنه موتور خاموش شه، تا شما کلمۀ عبور رو جایی روی داشبورد وارد کنید و بگین: "هی! من مجوز رانندگی دارم". عالیه!
چی می شه اگر تمام خودروهای داخل اروپا از این فناوری برخوردار باشند؟ چه کاری می تونستیم انجام بدیم؟ اگر داده ها رو جمع کنیم، شاید بتونیم علامت های ثبت شده رو ببینیم بهترین راه تشخیص این که در ۵ ثانیۀ آینده، یک تصادف اتفاق می افته. و نکتۀ بعدی که ازش بهره می گیریم، خستگیِ راننده است، خدمات به این شکل ارائه می شه که مثلاً وقتی ماشین متوجه این حالت راننده می شه، آلارم داخلی رو به صورت خودکار فعال می کنه که مثلاً فرمون رو می لرزونه، یایه بوق می زنه که بگه: "هی! بیدار شو، بیشتر به جاده توجه کن" این ها مصداق هایی از توانایی هامون هستند، وقتی جنبه های بیشتری از زندگی روبه داده بدل می کنیم.
حالا ارزش دادۀ بزرگ چیه؟ خب... بهش فکر کنید. اطلاعات بیشتری دارید. می تونید کارهایی انجام بدبد که قبلاً نمی تونستید. یکی از تاثیرگذارترین جاهایی که این مفهوم کاربردیه زمینۀ یادگیریه ماشینه. یادگیریه ماشین، شاخه ای از هوش مصنوعی ست، که خود شاخه ای از علوم رایانه ست. ایدۀ کلی به این شکله که به جای آموزش رایانه برای کاری، ما خیلی ساده، داده ها رو کنار مشکل میگذاریم و به رایانه می گیم، خودت حلش کن. دانستن منشا این مسئله، به درکش کمک می کنه. در سال ۱۹۵۰، یک دانشمند رایانه در آی.بی.ام به نام آرتور ساموئل به چکِرز علاقه داشت و برنامه ای برایش نوشت تا بتونه مقابل رایانه بازی کنه. او بازی کرد. و او برد. بازی کرد. برد. بازی کرد. برد. چون رایانه، تنها حرکت های قانونی رو می دونست. آرتور ساموئل چیز دیگه می دونست. آرتور ساموئل استراتژی می دونست. پس یه برنامۀ تکمیلی در کنارش نوشت که پشت زمینه کار کنه، و این احتمال رو بسنجه که بعد از هر حرکت ترکیب مهره های صفحه، به سمت برد می ره یا باخت. او با رایانه بازی می کنه. و می بره. بازی می کنه. و می بره. بازی می کنه. و می بره. و سپس آرتور ساموئل رایانه رو تنها می گذاره تا با خودش بازی کنه. بازی می کنه. و دادۀ بیشتر جمع می کنه. دادۀ بیشتر جمع می کنه. و دقتپیش بینی رو بالا می بره. بعد آرتور ساموئل برمی گرده به رایانه و بازی می کنه، می بازه. و بازی می کنه، و می بازه، و بازی می کنه، و می بازه، و آرتور ساموئل ماشینی ابداع می کنه که از اون در توانایی ای که یادش داده بود،سبقت می گیره.
و این ایدۀ یادگیری ماشین به همه جا می ره. فکر می کنید ماشین های بدون راننده از کجا اومدن؟ آیا ما جامعه ای هستیم که تمام قوانین جاده رو به نرم افزار بدیم؟ نه! حافظه ارزون تره، نه! الگوریتم ها سریع ترند، نه!پردازنده ها بهترند، نه! همۀ اینها مهم اند، اما پاسخ ما نیستند. پاسخ اینه که ما ماهیت مسئله رو تغییر دادیم. ماهیت مسئله رو از این که سعی کنیم آشکارا و به جزء به رایانه بگیم که چطور رانندگی کنه، به این شکل تغییر دادیم: این مقدار اطلاعات در مورد خودرو هست. خودت حلش کن. خودت بفهم که این چراغ راهنماییه، که چراغ راهنما قرمزه و نه سبز، که این یعنی باید بایستی و جلو نری.
یادگیری ماشین، پایۀ بسیاری از کارهای آنلاین ماست. موتورهای جستجو، الگوریتم شخصی سازی آمازون، مترجم رایانه ای، سیستم های تشخیص صدا. محققین اخیرن به مسئلۀ بافت برداری پرداختند، بافت های سرطانی. آنها از رایانه خواستند که با مشاهدۀ داده ها و میزان نجات بررسی کند که آیا در واقع سلول ها سرطانی اند یا نه، و مطمئناً، با افزودن داده به آن، به الگوریتم یادگیریِ ماشین، ماشین قادر بود به شناساییِ ۱۲ تا از بهترین نشانه های پیش بینی که نمونۀ سلول های سرطان پستان واقعاً سرطانی اند. مسئله: دایرۀ المعارف پزشکی تنها ۹ تای آنان را می شناخت. سه تا از ویژگی ها، آنهایی بودند که مردم نیازی به پیدا کردن آنها نداشتند، اما ماشین آنها را پیدا کرد.
ابعاد تاریکی هم برای دادۀ بزرگ وجود دارد. زندگی مان را بهبود می بخشداما مشکلاتی هم هست، که باید به آنها آگاه باشیم. اولی، ایده ایست که شاید برای این پیش بینی ها مجازات شویم! مثلن پلیس برای مقاصدش از آن استفاده کند. کمی شبیه فیلم "گزارش اقلیت". امروزه واژۀ پیش بینیِ پلیسی هست، یا جرم شناسی الگوریتمی که اگر داده های زیادی داشته باشیم، مثلاً محل وقوع جرم های پیشین، می دانیم گشت ها را به کجا اعزام کنیم. به نظر منطقی می آد، اما مشکل اینه که مسئله به دادۀ موقعیت ختم نمی شه، و به مسائل فردی وارد خواهد شد. چرا از ریزنمرات فردی در دوران دبیرستان استفاده نکنیم؟ شاید باید از این حقایق استفاده کنیم که آیا بیکارند یا نه، اعتبار بانکی شان، رفتاروب گردی آنها آیا تا دیروقت بیدارند. دست بندشان، اگر قادر به تشخیصبیوشیمی باشد، تصورات تهاجمی شان را نشان خواهد داد. می شه الگوریتم هایی اشته باشیم که تقریباً کارهایمان را پیش بینی می کنند، و ممکنه قبل از ارتکاب جرم دستگیر شیم. حریم خصوصی، چالش اصلی در عصر دادۀ کوچک بود. در دورۀ دادۀ بزرگ، چالش، حفاظت از اختیار است، انتخاب اخلاقی، ارادۀ انسان وکالت انسان.
مشکل دیگری هم هست: دادۀ بزرگ ما را بیکار می کند. دادۀ بزرگ و الگوریتم ها به مصاف کارمندان و کار حرفه ای می روند در قرن ۲۱. به همان ترتیب که اتوماسیون کارخانه ها و خطوط تولید در قرن بیستم به مصاف کارگران رفتند. مثلاً تکنسین آزمایشگاه که زیر میکروسکوپ نمونۀ سرطانی می بیند و نتیجه می گیرد که آیا سرطانی ست یا نه. شخص به دانشگاه رفته. شخص املاک می خره. او رای می دهد. او در جامعه ذینفع است. و شغل اون شخص، مثل همۀ ناوگانِ حرفه ای ها مانند اون شخص، خواهند فهمید که شغلشان کاملاً تغییر کرده یا کاملاً از بین رفته. ما دوست داریم اینگونه فکر کنیم که فناوری بعد از مدتی ایجاد شغل می کنه بعد از مدت کوتاه یا موقت جابجایی، و این برای ارجاع به انقلاب صنعتی که با اون زندگی می کنیم، درسته چون دقیقاً همونیه که اتفاق افتاده. اما چیزی رو در اون آنالیز فراموش کردیم: دسته ای از مشاغل هستند که به راحتی از بین می رن و بر نمی گردند. انقلاب صنعتی خیلی خوب نبود، اگر شما اسب بودید. پس باید دقت کنیم و دادۀ بزرگ رو برای خواسته هامون به کار بگیریم، خواسته های انسانی مون. باید ارباب این فناوری باشیم، نه بنده اش. ما هنوز در ابتدای عصر دادۀ بزرگ هستیم، و صادقانه، خیلی خوب نیستیم در ادارۀ داده هایی که امروز می تونیم جمع کنیم. این فقط مشکلی برایآزانس امنیت ملی نیست. شرکت ها داده های زیادی جمع می کننداز آنها استفادۀ نادرست هم می کنند، باید این قسمت رو بهبود بدیم،و این زمان بره. کمی مشابه چالشی که انسان اولیه با آتش داشت. این یک ابزار است. اما ابزاری که بر اثر استفادۀ نادرست، ما را به آتش می کشد.
دادۀ بزرگ، روند زندگی ما را متحول خواهد کرد، روند کارمان را و روند تفکرمان را. به ما کمک می کند در مدیریت سوابق مان در هدایت زندگیِ راضی کننده و امیدبخش در خوشحالی و در سلامت اما در گذشته،اغلب به فناوری اطلاعات نگاه می کردیم و چشم هایمان فقط "ف" را دیده اند فناوری... سخت افزار... چون آنها فیزیکی بودند. اکنون باید به "ا" بنگریم، اطلاعات... که کمتر اشکار است. اما در برخی جهات بسیار مهم تر. بشریت سرانجام از اطلاعات خواهد آموخت اطلاعاتی که جمع می کند، در راستای تلاش بی پایان مان برای فهمیدن جهان و جایگاهمان در آن، و به این دلیله که دادۀ بزرگ مهمه.
(تشویق حضار)