Топ-100
Back

ⓘ Наука за податоци. Науката за податоци е меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни инфор ..




Наука за податоци
                                     

ⓘ Наука за податоци

Науката за податоци е меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни информации од многу структурирани и неструктурирани податоци. Науката за податоци е поврзана со податочно рударење, машинско учење и големи сетови податоци.

Науката за податоци е "концепт кој ги обединува дисциплините: статистика, анализа на податоци и нивните сродни методи" со цел да се "разберат и анализираат реалните појави" преку податоците. Оваа наука користи техники и теории извлечени од многу полиња во контекст на математика, статистика, компјутерски науки и информатика.

Добитникот на наградата Туринг, Џим Греј, ја објаснил науката за податоци како "четврта парадигма" на науката како додаток на веќе постоечките парадигми: емпириска, теоретска и пресметковна тврдејќи дека "сè во науката се менува поради влијанието на информатичката технологија" и презаситеноста од податоци.

Науката за податоци е интердисциплинарна област насочена кон извлекување на корисни информации и знаење од множества на податоци, кои се обично големи анг. big data. Ова поле опфаќа подготвување податоци за анализа, податочна анализа, и презентирање на корисната информација извлечена од процесот со цел донесување на информирана одлука на високо ниво во една организација. Како таква, таа вклучува вештини од компјутерски науки, математика, статистика, визуелизација на информации, графички дизајн, сложени системи, комуникација и бизнис. Статистичарот Нејтан Јау, потпирајќи се на Бен Фрај, исто така ја поврзал науката за податоци со интеракцијата човек-компјутер: корисниците треба да можат интуитивно да ги контролираат и истражуваат податоците. Во 2015 година, Американското здружение за статистика ги идентификувало управување со базата на податоци, статистика и машинско учење и дистрибуирани и паралелни системи како трите нови професионални заедници.

Многу статистичари, вклучително и Нејт Силвер, тврдат дека науката за податоци не е ново поле, туку е друго име за полето на статистика. Други пак тврдат дека науката за податоци е различна од статистиката затоа што се фокусира на проблеми и техники кои се уникатни за дигиталните податоци. Ванстан Дар пак, тврди дека статистиката ги нагласува квантитативните податоци и нивниот опис. Спротивно на тоа, науката за податоци се занимава со квантитативни и квалитативни податоци на пр. Слики и нагласува предвидување и дејствување согласно тие податоци. Ендру Гелман од Универзитетот Колумбија и научникот за податоци Винсент Гранвил ја опишале статистиката како несуштински дел од науката за податоци. Професорот од Стенфорд, Дејвид Донохо, расправал дека науката за податоци не се разликува од статистиката според големината на податоците и податочните множества или според употребата на компјутерите, и дека многу институции погрешно ја маркетираат обуката за анализа и статистика како суштина на програмата за наука за податоци. Тој ја дефинирал науката за податоци како применета област која произлегува од традиционалната статистика. Согласно ова, може да се заклучи дека науката за податоци се опишува како применета гранка на статистиката.

                                     

1.1. Етимологија Рана употреба

Во 1962 година, Џон Туки ја опишал областа оваа област нарекувајќи ја "анализа на податоци", што наликува на современата област наука за податоци. Подоцна, присутните на симпозиумот за статистика во 1992 година на Универзитетот во Монпелје Втори го признале појавувањето на нова дисциплина фокусирана на податоци од различно потекло и форми, комбинирајќи воспоставени концепти и принципи на статистика и анализа на податоци преку компјутер.

Терминот "наука за податоци" се појавил уште во 1974 година, кога Питер Наур го предложил како алтернативно име за компјутерски науки. Во 1996 година, Меѓународната федерација на класификациони друштва станала првата конференција на која специфично е прикажана науката за податоци како тема. Сепак, дефиницијата сè уште била во тек. Во 1997 година, Ц.Ф. Џеф Ву сугерирал дека статистиката треба да се преименува во наука за податоци. Тој образложил дека новото име ќе и помогне на истата да отфрли некои неточни стереотипи поврзани со работата во ова поле, како на пример нејзиното сметање за синоним со сметководство.

Во 1998 година, Чикио Хајаши тврдел дека науката за податоци е нов, интердисциплинарен концепт, со три аспекти: дизајн на податоци, собирање и анализа.

Во текот на 90-тите години на минатиот век, популарни јазични термини за процесот на изнаоѓање шеми и поврзаности во податочните множества кои станувале сè поголеми вклучувале "откривање на знаење" и "рударење податоци".

Современата концепција на науката за податоци како независна дисциплина понекогаш му се припишува на Вилијам Кливленд. Во негов труд од 2001 година, тој се залагал за проширување на статистиката надвор од математичката теорија и тоа во технички области; и бидејќи ова значително ќе го промени полето, постои потреба од ново име. "Науката за податоци" станала пошироко користена во следните неколку години: во 2002 година, Комитетот за податоци за наука и технологија го објавил списанието "Data Science Journal". Во 2003 година, Универзитетот Колумбија го објавил, The Journal of Data Science". Во 2014 година, Одделот за статистичко учење и рударење на податоци на Американското статистичко здружение го променил своето име во Секција за статистичко учење и наука за податоци, како одраз на растечката популарност на науката за податоци.

Професионалното звање "научник за податоци" им се припишува на ДЈ Патил и Џеф Хамербахер во 2008 година. Иако било користено од Националниот научен одбор во нивниот извештај од 2005 година, "Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century,", тој општо се однесувал на која било клучна улога во управувањето со дигиталната колекција на податоци.

Сè уште нема консензус за дефиницијата на науката за податоци.

                                     

2. Влијанија на науката за податоци

Големите збирови на податоци многу брзо стануваат витална алатка за деловните субјекти и компаниите од сите големини. Достапноста и интерпретацијата на големите податоци менуваат деловните модели на старите индустрии и овозможуваат создавање на нови. Бизнисите водени од податоци се во вредност од 1.2 трилиони долари колективно во 2020 година, што е пораст од 333 милијарди долари за 2015 година. Научниците за податоци се одговорни за разградување на големите податоци во употребливи информации и создавање на софтвер и алгоритми кои им помагаат на компаниите и организациите да утврдат оптимално работење. Бидејќи големите податоци продолжуваат да имаат големо влијание врз светот, науката за податоци го прави и тоа како резултат на блиската врска меѓу нив.

                                     

3. Технологии и техники

Постојат различни технологии и техники кои се користат во науката на податоци, кои зависат од апликацијата на истата. Во поново време, развиени се посебни платформи кои се на широко се користат за наука на податоци и машинско учење.

                                     

3.1. Технологии и техники Техники

  • Линеарна регресија
  • Машинското учење е техника што се користи за извршување на задачи со преглед на обрасци од податоци.
  • Векторска машина за поддршка SVM
  • Кластерирање е техника што се користи за групирање на податоците заедно.
  • Намалувањето на димензионалноста се користи за да се намали комплексноста на пресметката на податоците за да може побрзо да се изврши.
  • Дрвата на одлучување се користат како модели за предвидување за класификација и вклопување на податоците. Структурата на дрвото на одлучување може да се искористи за генерирање правила што можат да ги класифицираат или да предвидат некоја целна променлива, класа или етикета, врз основа на атрибутите за набљудување.
  • Логистичка регресија
                                     

3.2. Технологии и техники Јазици

  • Juliа е јазик на високо ниво со високи перформанси, со можност за динамичко програмиеање и јазик кој е добро прилагоден за бројчена анализа и компјутерска наука.
  • Пајтон е програмски јазик со едноставна синтакса која најчесто се користи за наука за податоци. Постојат голем број библиотеки кои се користат во науката за податоци, вклучително и вкочанета, панда и лута.
  • R е програмски јазик дизајниран за статистичари и податоци за рударство и е оптимизиран за пресметка.
                                     

3.3. Технологии и техники Рамки

  • Pytorch е друга рамка за машинско учење развиена од Фејсбук.
  • TensorFlow е рамка за создавање модели за машинско учење развиена од Google.
  • Apache Hadoop е софтверска рамка што се користи за обработка на податоци преку големи дистрибуирани системи.
  • Jupyter Notebook е интерактивен веб-интерфејс за Python кој овозможува побрзо експериментирање.
                                     

3.4. Технологии и техники Алатки за визуелизација

  • Google Charts е веб-услуга заснована на JavaScript, направена и поддржана од Google за создавање графички графикони.
  • Webix е пакет алатки за кориснички интерфејс кој вклучува наменски алатки за визуелизација на информации.
  • PowerBI е деловна аналитичка услуга на "Мајкрософт".
  • Qlik произведува софтвер како QlikView и Qlik Sense што се користи за визуелизација на податоци и деловна интелигенција.
  • Sisense обезбедува предност за градење визуелизации на податоци, вклучувајќи контролни табли и извештаи.
  • AnyChart обезбедува библиотеки на JavaScript и други алатки за визуелизација на податоци во графикони и контролни табли.
  • Plotly обезбедува богат сет на интерактивни библиотеки за научни графики.
  • Tableau прави разновиден софтвер што се користи за визуелизација на податоците.
                                     

3.5. Технологии и техники Платформи

  • MATLAB е компјутерска околина која многу се користи во индустријата и академијата.
  • Аnaconda обезбедува сеопфатна бесплатна дистрибуција со отворен извор на програмските јазици Python и R.
  • Dataiku е колаборативен софтвер за наука на податоци што се продава за големи податоци.
  • RapidMiner е софтверска платформа за наука за податоци развиена од истоимената компанија.
  • Databricks е клауд-платформа за облак за масовно инженерство на податоци и колаборативна наука за податоци.
                                     
  • Наука - систем кои ги гради и организира знаењата во облик на проверливи објаснувања и предвидувања за универзумот. Во постарите и блиско поврзаните значења
  • Министерството за образование и наука е министерство во состав на Владата на Република Македонија, според член 23 од Законот за организација и работа на
  • Во комјутерската наука поимот integer или целобројна вредност се користи за типови на податоци кои претставуваат конечно подмножество од множеството
  • употребливи рамки за масивни, растечки бази на податоци За повеќе, погледнете случајност. Во сегашноста пак, различни области на општествената наука напредуваат
  • Науки за Земјата е сеопфатен термин за науки поврзани со планетата Земја. Тоа е веројатно посебен случај во планетарна наука знаејќи дека Земјата е единствената
  • на атмосфера, океани и клима и наука за податоци за животната средина. Таа е теоретичар, бројчени моделар и научник за набљудување. Шукбург одела на колеџот
  • Компјутерската наука во спортот е интердисциплинарна дисциплина која има за цел да ги комбинира теоретските, како и практичните аспекти и методи од областа
  • претставува наука за собирање, организирање, анализирање, резимирање, илустрирање на податоци или резултати. Дедуктивна статистика претставува наука за доведување
  • една цел на статистиката како наука е да произведе најдобра информација од понудените податоци некои автори ја сметаат за гранка на теорија на одлучување
  • Историјата на Европа е дел од историјата како наука која се занимава со проучување на минатото на европските народи, етноси и држави. Историчарите историјата
  • Политичка наука претставува збир на академски и истражувачки дисциплини што се занимаваат со политичката теорија и практика, како и описот и анализата
  • од грчки: φυσικός, фисикос, природно и φύσις, фисис, природа - природна наука која ги изучува општите и фундаментални закономерности кои ја определуваат
  • Националната фондација за наука на САД, која финансираше проекти за управување со податоци во науките. DataONE мрежа за набудување на податоци за Земјата е еден

Users also searched:

...
...
...