Carregant...
 
ADUP - R

ADUP - R


Curs R per a Ajuntament de Barcelona (inicialment)

publicacions: 51

Hola:

Estem començant a dissenyar els apunts d'un curs d'R per a persones companyes treballadores de l'Ajuntament de Barcelona.

La meva idea és que el codi font (R, Rmd, etc) sigui lliure (amb llicència MIT, per exemple), i els apunts tinguin cc-by-sa.

Arxius sota control deversions al gitlab de l'ADUP:
https://gitlab.com/radup/curs-r-introduccio

Estructura inicial la tenim a un Wiki a la intranet de la OMD, després d'una feina inicial de definir objectius i esuqema/metodologia bàsica a l'OMD (espero poder deixar-la visible al gitlab en propers dies).

Però per anar obrint boca, poder mirar els resultats d'unes comparatives de velocitat de lectura i escriptura d'arxius en disc (en funció de si és SSD o IDE, i en funció del paquet emprat i si es deixa comprimit - ja sigui binari o text amb gz - o no):
https://gitlab.com/radup/curs-r-introduccio/blob/master/comparativa_lectura_escriptura.Rmd

Exemples:

Tipus de Disc
lectura
escriptura
SSD Image Image
IDE Image Image


Resum executiu:

  • llegir i escriure csv amb data.table (tot i que just després es passin a data frame per continuar amb l'universe tidyverse del Hadley Wickam)
  • molts paquets permeten llegir directament gz sense descomprimir abans.
  • per desar dataframes grans (totxos, 100Mb +, per exemple) en algun format de forma ràpida, i poder llegir-los després de forma ràpida, ni que sigui només la capçalera o el final - en mode "head" o "tail", o l'arxiu sencer, i amb mides petites en disc SSD o IDE, el guanyador sense rival és el paquet fst ( https://www.fstpackage.org/ ), que per a mi era un gran desconegut fins el cap de setmana passat, però ja el tinc ben present des de llavors en tots els meus projectes ara :-)


To be continued