امروزه داده به محور اصلی چگونگی اداره کسب و کار بدل شدهاست. در واقع، شرکت داده بینالملل (IDC)، کمپانی هوش تجاری جهانی، پیشبینی کردهاست که سرمایهگذاری بر داده و تحلیل آن تا سال 2022 به 274.3 میلیارد دلار میرسد. با این حال، مقدار زیادی از این پول عاقلانه خرج نمیشود. نیک هویدکر، تحلیلگر گارتنر، تخمین زدهاست که چیزی برابر با 85% پروژههای عظیم داده شکست میخورند.
یکی از جنبههای اصلی مشکل آن است که اعداد ظاهرشده روی صفحهنمایش کامپیوتر اعتبار خاصی پیدا میکنند. درست پس از اینکه داده از پایگاههای عظیم استخراج و با نرمافزارهای پیچیده تحلیل شد، بسیار کم پیش میآید که به منبع آن، تغییرات آن یا تناسب آن با خواسته مسئله اهمیت بدهیم.
واقعیت این است که برای گرفتن پاسخ خوب از داده، تنها نباید بر مقادیر کمی تمرکز کرد. نیاز است که بدانیم چگونه سوالات دقیق بپرسیم. به طور خاص، نیاز است بدانیم که منبع داده چیست، مدلهای بهکاررفته برای تحلیل آن کدامند و چه چیزهایی نادیده گرفته شدهاند. بیش از هر چیز، نیاز است که به داده بیشتر از ابزاری برای بهینهسازی عملیات نگاه کنیم و آن را برای ترسیم احتمالات جدید به کار بگیریم.
میتوان با این سوالات شروع کرد:
منبع داده کجاست؟
داده را مجموعهای از داستانها میدانند. اتفاقات واقعی، مانند دادوستد، تشخیص بیماریها و دیگر اطلاعات مرتبط، ضبط شده و در مجموعهای از سرورهای بزرگ ذخیره میشود. با این وجود، عدة کمی از منبع داده میپرسند، و متاسفانه کیفیت و دقت در مورد این که چه دادهای جمعآوری شود، بسیار متغیر است. در واقع، یک تحقیق که اخیرا گارتنر انجام دادهاست، نشان میدهد که شرکتها، به دلیل کیفیت پایین داده، به طور میانگین سالانه 15 میلیون دلار ضرر میدهند.
داده اغلب تحت تاثیر خطای انسانی است – مانند دادههای جمعآوریشده به وسیلة کارمندان حقوقپایین و بیانگیزهای که مبالغ دفتر دارایی را ثبت میکنند. با این حال، حتی زمانی که فرایند جمعآوری داده اتوماتیک باشد، باز هم ممکن است خطاهای بزرگی رخ بدهد – مانند قطعی متناوب برق در برجهای آنتن تلفن همراه یا اشتباه در فرایند خالی کردن کانال برای تراکنشهای مالی.
دادهای که کیفیت پایینی دارد یا برای منظور اشتباهی استفاده شدهاست، بسیار بدتر از این است که برای موضوعی دادهای نداشته باشیم. موضوع دیگری، که از زمان تصویب استاندارد دادة GDPR به وسیلة اتحادیة اروپا به طرز فزایندهای اهمیت پیدا کرده، این است که آیا (مشتری یا مدیر) در زمان جمعآوری داده راضی به این کار بودهاست یا نه.
بنابراین، تصور نکنید که دادهای که در دست دارید لزوما دقیق و باکیفیت است. شما باید بدانید که از کجا آمده و چگونه نگه داشته شدهاست. باید که، هرچه بیشتر، همان دقتی که برای بررسی تراکنشهای مالی به خرج میدهیم، برای تراکنشهای دادهای هم به خرج دهیم.
داده چگونه تحلیل شده است؟
حتی اگر داده دقیق باشد و به بهترین شکل نگهداری شدهباشد، کیفیت مدلهایی که داده با آنها تحلیل میشود میتواند بسیار متغیر باشد. اغلب اوقات، مدلها با استفاده از پلتفرمهای متنباز، مانند گیتهاب، سرهمبندی میشوند، و تغییرات لازم متناسب با هدف بر آنها اعمال میشود. پیش از گذر زمانی طولانی، همه فراموش میکنند که مدل از کجا آمده و یک مجموعه دادة خاص را چگونه ارزیابی میکند.
چنین اشتباهاتی بیش از آن که فکر کنید، اتفاق میافتند و میتوانند آسیب جدی به کسب و کار وارد کنند. مثلا داستان دو اقتصاددان برجسته را به یاد بیاورید که در مقالهای که چاپ کردند، هشدار دادند که میزان بدهی ایالات متحده به سطح بحرانی نزدیک میشده است. مقالة آنها طوفانی در سیاست ایجاد کرد اما بعدها معلوم شد که آنها به دلیل اشتباهی در اکسل تاثیر بدهی بر سرانه را بیشازحد در نظر گرفته بودند.
همانگونه که مدلها دقیقتر میشوند و از منابع بیشتری استفاده میکنند، مسائل برآمده از چگونگی یادگیری این مدلها بزرگتر و بیشتر میشوند. یکی از خطاهای معمول، بیشبرازش (overfitting) است. این خطا به زبان ساده یعنی که هر چه تعداد متغیرهای مدل بیشتر باشد، احتمال پاسخ درست آن به مسائل عمومیتر پایین میآید. در برخی شرایط، مقادیر بیش از اندازة داده میتواند به تراوش داده (آمیختهشدن دادة استفادهشده در یادگیری با دادة استفادهشده برای آزمون مدل) منجر شود.
این نوع خطاها حتی در بزرگترین شرکتها هم میتواند فاجعه به بار بیاورد. به عنوان مثال، آمازون و گوگل اخیرا بحرانهای بزرگ و پرسروصدایی در این زمینه داشتهاند. از آنجا که با داده سروکار داریم، باید بهصورت مداوم مدل خود را در مواجهه با مسائل چالشی قرار دهیم. آیا مدل برای هدف مورد نظر ما طراحی شدهاست؟ آیا متغیرهای درست را برای سنجش به کار میگیرد؟ آیا خروجی واقعا گویای آنچه در دنیای واقعی میگذرد، است؟
داده چه چیز را به ما نمیگوید؟
مدلها از داده، درست همانند انسانها، تمایل به قضاوت بر مبنای اطلاعاتی دارند که دسترسی بیشتری به آنها وجود دارد. گاهی اوقات، دادهای که در اختیار ندارید به اندازة دادهای که در اختیار دارید بر تصمیمگیری شما تاثیر دارد. عموما این نوع از خطای ادراکی که مبتنی بر میزان دسترسی به داده است، به تصمیمگیریهای انسانی نسبت داده میشود (انسان به دلیل محدودیتهایش نمیتواند همه چیز را در نظر بگیرد و معمولا به ادراک انتخابی دچار میشود)، اما طراحان مدل اغلب این ویژگی را به سیستمها انتقال میدهند.
مثلا، در موضوع خدمات اقتصادی، آنهایی که از سابقة خوبی در بازپرداخت قرض برخوردارند، دسترسی بیشتری به امکانات اقتصادی دارند. افرادی که فاقد این سابقه هستند (اغلب از آنها به عنوان افراد «سبکپرونده» یاد میشود) به سختی میتوانند ماشین بخرند، آپارتمان اجاره کنند یا کارت اعتباری دریافت کنند (یکی از همکاران ما، زمانی که پس از 15 سال به آمریکا برگشت، با همین مشکل روبهرو شد).
البته پروندهای سبک لزوما نشاندهندة ریسک بالای اعتباری نیست. شرکتها عموما مشتریان خوب احتمالی را صرفا به دلیل کمبود داده در مورد آنها رد میکنند. شرکت اکسپرین اخیرا برای این مشکل «برنامة امتیازدهی» را ارائه دادهاست. این برنامه به کاربران اجازه میدهد تا امتیازشان را با دریافت اعتبار برای مسائلی چون ارتباطات شبکهای روزمره و پرداختها بالاتر ببرند. تا به امروز، میلیونها نفر در این سایت عضو هستند.
بنابراین، بسیار مهم است که سوالات مهمی دربارة این که مدل شما چه چیز را ممکن است نادیده گرفتهباشد، بپرسید. اگر آنچه را که میسنجید، خود مدیریت میکنید، باید اطمینان پیدا کنید که آنچه میسنجید، بازتابدهندة واقعیت است و نه فقط دادهای که جمعآوری آن آسان بوده است.
چگونه میتوان محصولات و مدلهای کسب و کار را از نو طراحی کرد؟
در دهة گذشته، آموختهایم که داده چگونه میتواند به ادارة بهینة کسب و کار ما کمک کند. استفادة هوشمندانه از داده به ما این امکان را میدهد که فرایندها را خودکار کنیم، زمان نیاز دستگاهها به پشتیبانی و نگاهداری را پیشبینی کنیم و پاسخگویان بهتری به مشتریان خود باشیم. این «داده» است که به آمازون توانایی رساندن محصول در همان روز را میدهد.
داده همچنین میتواند خود بخش مهمی از محصول باشد. یک مثال معروف از این مورد نتفلیکس است، که مدت زیادی است که از تحلیل دادة هوشمند استفاده میکند تا امکانات برنامهنویسی بهتری با هزینة کمتر ارائه دهد (مانند پکیج متافلو که اخیرا ارائه داد). این کار برای نتفلیکس حاشیة امنی در رقابت با دیزنی و وارنر مدیا ایجاد کرده است.
البته داستان زمانی هیجانانگیز میشود که، از داده برای بازنگری کسب و کارتان استفاده میکنید. در اکسپرین، جایی که اریک کار میکند، توانستهاند شبکة ابری را طوری به کار بگیرند که از رساندن دادة پردازششده در قالب سررسید، به شرکتی تبدیل شوند که به مشتریانش دسترسی لحظهای به دادههای جزئی که گزارشها مبتنی بر آنان است، میدهد. ممکن است تغییری جزئی باشد اما همین بخش یکی بیشترین نرخهای رشد را در میان بخشهای مختلف شرکت دارد.
گفته شدهاست که داده در این روزگار معادل نفت است؛ اما ارزش آن بسیار بیشتر از نفت است. باید با داده بیشتر از یک شئ بدون فایده رفتار کنیم. اگر داده عاقلانه بهکار گرفتهشود، میتواند حاشیة رقابتی واقعی ایجاد کند و کسب و کار را به سمت و سوهای کاملا جدیدی ببرد. با این حال، برای دستیابی به آن، تنها نباید به دنبال پاسخها باشید. باید بیاموزید که چگونه سوالات جدید مطرح کنید.
منبع: مجله کسب و کار هاروارد – 2020