Data Science: 50+ korisnih linkova za učenje

Data science je evoluirala iz analitike. U poređenju sa njom, uključuje i podrazumeva mnogo više biznis znanja i razumevanja i samim tim je tehnički više usmerena ka mašinskom učenju, programiranju i prediktivnoj analitici. Više je fleksibilna i agilna, ima mogućnost da odgovori na pitanja koja nisu tradicionalna.

Studija McKinsey Global Institute napominje da će biti veliki izazov u narednih par godina da se pronađu talenti u USA sa analitičkim iskustvima i znanjem alata koji se tiču manipulisanjem i analizom Big Data.

Izveštaj napominje da će biti čak 140.000 do 190.00 novih otvorenih pozicija do 2018. godine samo u ovoj zemlji koji će zahtevati analitičare podataka i veštine koje su potrebe za ove poslove sa napredniji i dubljim znanjem tehničkih i analitičkih veština kao i programskih jezika kao što su SQLR i Python.

Autori takođe predviđaju potrebu za oko 1.5 miliona menadžera i analitičara sa koji će imati veštine da razumeju i donose odluke na osnovu velikih setova podataka.

IBM procenjuje da je 90% podataka na svetu kreirano u poslednje 2 godine.

Podaci su sve jeftiniji i sve prisutniji. Trenutno se digitalizuje analogni sadržaj koji se kreirao decenijama unazad i trenutno prikupljamo nove tipove podataka od logova naših web sajtova pa do mobilnih uređaja, sensora (Internet of Things), instrumenata i transakcija.

Praktično svaki sektor privrede sada ima pristup ka više podataka nego što je to bilo moguće i zamisliti pre 10 godina. Kompanije akumuliraju i prikupljaju nove podatke takvom brzinom da to prevazilazi njihove mogućnosti da izvuku vrednost iz njih.

Pitanje sa kojom se suočava svaka kompanija je kako da iskoristi podatke efikasno, i ne samo interne podatke nego i sve podatke koji su dostupni i relevantni za njihov biznis.

Big data predstavlja podatke koji dolaze u velikoj brzini i u količinama koje premašuju mogućnosti tradicionalnog software-a za skladištenje, procesuiranje i menažment podataka.

Data scientist predstavlja osobu koja kako se kaže mora da poznaje više programiranja od prosečnog statističara i više statistike od prosečnog programera.

Za sve one koji se nadaju da promene karijeru ili usmere je u oblast data science i big data, postoje mnoga pitanje na koje je potreban odgovor.  Ovaj tekst će pomoći da se pripremite i predstavlja pregled tekstova i linkova koji će olakšati put ka novim informacijama i znanjima koja su potrebna kako bi bili spremni za sve izazove koje donosi karijera Data Scientist-a.

Odakle da počnem?

Koje su veštine potrebne?

Koji programski jezik da naučim? Python ili R?

Koje blogove da pratim?

Data Science karijera

Pre nego što krenete da čitate i istražujete ovaj post, postavite sebi par pitanja:

  • Da li se osećate dovoljno komforno da uplovite u svet podataka?
  • Da li ste spremni da počnete od nule i da promenite karijeru?
  • Da li ste zaista otvoreni i raspoloženi za sticanjem novih znanja? 
  • Da li želite da postanete Data Scientist zato što je to trenutno jedna od najtraženijih karijera u svetu ili zato što iskreno mislite da ćete uživati  i voleti taj posao?

Najbolji način da pronađete odgovore na ova pitanja je da pregledate postove i video klipove u nastavku a koji detaljnije objašnjavaju dnevne aktivnosti i dužnosti svakog Data Scientist-a. Razmislite dobro da li vas ovaj posao i dalje interesuje ili ipak mislite da to nije za vas.

  • Kako da postanete Data Scientist: Šta predstavlja Data Science? Experfy
  • Kako da dobijete prvi posao iz oblasti Data Science Jean-Nicholas Hould
  • Šta predstavlja Data Scientist? Quora
  • Koje su mane u karijeri Data Scientist-a? Quora
  • Život Data Scientist-a (VIDEO)  Josh Wills
  • Prljave tajne Data Scientist-a (VIDEO) Hilary Mason
  • Karijera u Data Science industriji i  različite uloge u njoj  Springboard
  • Q & A za sve koji žele da postanu Data Scientist-i Converge

Tranzicija i promena karijere

Uvek je korisno i interesantno pročitati kako su drugi podneli promenu kroz tranziciju iz jedne karijere u drugu. U nastavku su izdvojeni tekstovi o promeni, očekivanjima, projektima i svemu onome što su naučili. Treba napomenuti da se članci većinom tiču tranzicije iz akademskog sveta u biznis svet.

Besplatni online data science resursi

Sada kada znate da ste spremni da napravite korak napred i promenu, potrebno je da naučite i usavršite veštine koje će vam biti potrebe za svakodnevne aktivnosti na budućem, vrlo interesantnom poslu.

U nastavku su dve vrlo dugačke liste svih linkova sa edukativnim karakterom o skoro svim temama koje se tiču Data Science karijere.

  • Kako da postanem Data Scienctist? Quora
  • Fantastičan Data Science izbor alata na Trello platformi Trello

Statistika i nauka o podacima

Statistika je vrlo esencijalna kada je u pitanju rad sa podacima i samim tim morate imati razumevanja i znanja oko osnovnih pojmova statistike. Sve oko statističkih testova, distribucije, linearne regresije itd je veoma korisno za rad sa podacima. Korisni tekstovi i kursevi za početak su:

SQL i baza podataka 

Pre nego što počnete analizu, potrebni su vam podaci. Velika većina podataka sa kojima ćete manipulisati i sa kojima ćete se susretati tokom svakodnevnog posla su podaci koji su skladišteni u relacionoj bazi podataka. SQL (Structured Query Language) je alat koji se najčešće koristi za izvlačenje podataka iz baze.

  • SQL The Prequel: Excel vs Baze podataka Code Academy
  • Pristup iz ugla tabela i iz ugla baza podataka Eagereyes
  • Kako da napravite iskorak od Excel ka SQL Mode
  • Objašnjenje racionalnih i ne relacionalnih baza podataka Ignored by Dinosaurs
  • SQL za analizu podataka Mode

Python programski jezik

Python predstavlja besplatan i open-source  programski jezik koji je postao izuzetno popularan kada je u pitanju i analiza podataka. Python ima jako veliku i snažnu kolekciju datoteka (kodovi koji vam pomažu da završite rutinske zadatke brže) za manipulaciju podataka, vizualizaciju, mašinsko učenje i druge.

  • Odakle da krenem sa učenjem Python-a (10+ linkova) Quora
  • Python kolekcija popularnih datoteka Mode
  • 8 resursa za učenje analize podataka sa Python panda datotekama Data School
  • Interaktivno učenje LearnPython
  • Upoznavanje sa Python-om za Data Science pozicijiu DataCamp
  • Kurs Python programiranja Codecademy
  • Učenje Python-a preko mobilnog telefona i aplikacije Learn Python SoloLearn

R programski jezik

R, kao što je to slučaj i sa Python-om, predstavlja besplatan open source programski jezik. Dok je Python pre svega počeo prvenstveno kao programski jezik za programere, R je napravljen sa ciljem za statističko izračunavanje i vizualizaciju podataka. R datoteke su otprilike ekvivalent Python datotekama.

Ako se dvoumite da li da naučite Python ili R programski jezik (sto predstavlja čest slučaj) pogledajte fantastičan DataCamp infografik koji detaljno objašnjava i poredi oba programska jezika i njihove prednosti i mane u zavisnosti šta želite da postignete sa njihovim korišćenjem.

Mašinsko učenje

U zavisnosti od kompanije i pozicije, verovatno nećete imati susreta sa ovom oblasti ali nije na odmet da se znaju osnove, pogotovu koje tehnike su odgovarajuće u kojoj situaciji.

Vizualizacija podataka

Vizualizacija podataka predstavlja takođe vrlo bitan i sastavni deo u radu svakog Data Scientist-a. Kvalitetni prikazi podataka u slici su jako bitni iz prostog razloga što samo analiza nije dovoljna. Potrebno je i objasniti podatke saradnicima i kolegama kroz sliku i vizuelni prikaz.

Online treninzi i kursevi

Ako tražite treninge sa planom rada, online kursevi predstavljaju odličan način da se nauče i usavrše veštine. Večina je besplatna a ako želite sertifikakat moraćete da izdvojite od 20$ do 100$ u zavisnosti od kursa. U nastavku su linkovi svih poznatih i kvalitetnih online platformi za učenje preko interneta  i njihova ponuda ka svim kursevima koji se tiču data science i nauke o podacima.

Lista svih kurseva sa detaljnim objašnjenjima šta sadrže LearnDataSci

90+ aktivnih blogova o data science

Učenje naravno ne prestaje kada konačno osvojite posao koji želite i samim tim  uvek morate biti informisani o svim relevantnim stvarima koje se tiču vaše industrije.

KDNuggets sadrži sjajne data science tesktove i ima takođe listu sa preko 90+ aktivnih blogova koji se bave temama od analitike pa do big data, mašinskog učenja, data mining itd.

YouTube kanali

Podcasts

Reddit zajednice

Newsletters

KDNuggets (Knowledge Discovery) je jedan od vodećih sajtova kada su u pitanju tekstovi koji se tiču Big Data, Data Mining, Data Science i Machine Learning-a. Osnovan je davne 1997. godine i ovaj vrlo popularan sajt uređuju Gregory Piatetsky-Shapiro i Matthew Mayo. Sajt je osvojio preko 60 nagrada kao jedan od vodećih portala za data science industriju. Newsletter funkcioniše od 1993. godine i do sada je skupio preko 150,000 prijava. Frekvencija slanja je oko 3 do 4 puta mesečno, najčešće sredom. Možete se prijaviti na ovom linku.

Od 2013. godine Hannah Brooks i Sebastian Gutierrez biraju najzanimljivije tekstove za Data Science Weekly. Pored jako kvalitetnih intervjua uključuje još i predloge za knjige, meetup-ove, dataset-ove itd. Svaki novi newsletter počinje sa najboljim tekstovima za proteklu nedelju koji prati duži spisak tekstova i tutorijala. Newsletter stiže svakog četvrtka. Prijava se nalazi na naslovnoj stranici dok arhivu možete pogledati ovde.

Data Elixir newsletter postoji od 2014. godine i obuhvata miks vesti, raznih mišljenja, trendova i tutorijala. Uređuje ga Lon Riesberg koji može da se pohvali bogati radnim iskustvom koje je uključivalo i njegov angažman za NASA-u. Newsletter stiže svakog petka. Arhiva može da se pronađe na ovoj straniciPrijava na newsletter se vrši preko naslovne stranice ovde.

Data Science Roundup je prvenstveno lansiran od strane RJMetrics. Nakon što se ova kompanija prodala, ovaj newsletter je postao nezavistan i sponzorisan od strane Fishtown Analytics. Sadržaj uređuje Tristan Hardy i do sada imaju preko 7,000 prijavljenih. Frekvencija slanjq je svake nedelje gde biraju 5 odabranih tekstova. Prijava se nalazi na naslovnoj stranici DSR.

O’Reilly je još od davne 1980. godine poznat kao izdavač knjiga koje su prvenstveno bile usmerene ka softverskim inžinjerima a takođe poznat po knjigama koje imaju slike životinja na svojim naslovnim stranicama. U poslednjih 6 godina je sa svojim poznatim Strata + Hadoop World konferencijama još više učvrstio svoju poziciju u ovoj industriji. Nedeljni newsletter predstavlja savršen miks vesti, editorijala i studije slučaja. Prijava se nalazi na ovom linku.

Python Weekly je besplatan nedeljni newsletter koji je usmeren na programski jezik Python. Sadrži odabrane vesti, tekstove, Python biblioteke i liste aktelnih događaje i dešavanja u okviru ove zajednice. Svakog četvrtka stiže newsletter dok se prijava nalazi na naslovnoj strani ovde. Kompletna arhiva se nalazi ovde.

Ovaj newsletter se uređuje od strane Mode Analytics od decembra 2015. godine. Svakog ponedeljka stiže newsletter sa dosta praktičnim tekstovima koji dosta uključuju i SQL. Možete se prijaviti ovde.

Ako ste zainteresovani da naučite programski jezik R koji je standard među statističarima i koji ima široku upotrebu u svetu podataka onda je ovaj portal i newsletter defiinitivno odličnu polazna tačka. R-Bloggers predstavlja blog agregator sadržaja od preko 750 blogera koji pišu o programskom jeziku R na engleskom jeziku. Trenutno ima preko 43,000 prijavljenih na mailing listu. Prijava se nalazi na početnoj stranici ovde. 

DSC (Data Science Central) newsletter uključuje različite tekstove od analitike do integracije podataka pa do vizualizacije. Ovaj portal pruža zajednici širok izbor kvalitetnih tekstova, mogućnost za socijalnu interakciju, tehničku podršku na forumu a tekstovi su o najnovijim vestima o tehnologiji, o alatima i trendovima u industriji. Prijava na newsletter se nalazi ovde.

O autoru

Dušan Milošević

Dodaj komentar

This site uses Akismet to reduce spam. Learn how your comment data is processed.