Igual que hicimos para la anterior edición, aquí tienes una lista de recursos para hacer tus proeyctos para el II OpenDatathon.
¿Dónde puedo obtener datos? – Fuentes de datos
De la Comunidad Valenciana (Categoría 1-GVA y 2-Cátedra Ciudad de Valencia):
- Cátalogo de datos históricos dataUPV. En dataUPV hemos recopilado y convertido a formatos abiertos algunos datos históricos: http://dataupv.webs.upv.es/catalogo-de-datos/
- Datos abiertos Ayuntamiento de Valencia: http://gobiernoabierto.valencia.es/es/data
- Oficina de Estadística (Ayuntamiento de Valencia): http://www.valencia.es/ayuntamiento/estadistica.nsf
- Datos abiertos Generalitat Valenciana: http://www.dadesobertes.gva.es
- Portal de transparencia de la Generalitat Valenciana: http://www.gvaoberta.gva.es/inici
- Calidad ambiental (Generalitat Valenciana):
- Datos on-line: http://www.habitatge.gva.es/web/calidad-ambiental/datos-on-line
- Datos históricos de contaminación en la Comunidad Valenciana GVA: http://www.cma.gva.es/cidam/emedio/atmosfera/jsp/historicos.jsp
- Datos históricos Índice Ultravioleta GVA: http://www.citma.gva.es/web/calidad-ambiental/datos-historicos-57102
- Agencia Estatal de Meteorología: https://opendata.aemet.es
- OpenWeatherMap (Datos meteorológicos de todo el mundo): http://openweathermap.org/
- FGV (Ferrocarrils de la Generalitat Valenciana): http://www.fgv.es/transparencia/
Del resto del mundo:
- Gobierno de España: http://datos.gob.es/catalogo
- Indicadores I+D+I FECYT: http://icono.fecyt.es/indicadores/Paginas/default.aspx?ind=134&idPanel=1
- The Open Data Land: http://theopendata.land/
- Portal de datos abiertos de la Unión Europea: http://data.europa.eu/
- Kaggle Datasets: https://www.kaggle.com/datasets
- Amazon Web Services Public Datasets: https://aws.amazon.com/es/datasets
- NASA – OpenData: https://data.nasa.gov/data
Para la Categoría 3-Gobierno Abierto: Hackers Cívicos puedes encontrar más información en: http://civichackers.cc/ (Si tienes dudas en esta categoría, en http://civichackers.webs.upv.es/contacto/ pueden resolver todas tus dudas).
Herramientas y ejemplos
Para limpiar los datos:
Si tus datos vienen en diferentes formatos, tienen campos vacios, ruído, etc. deberías limpiarlos primero y dejarlos listos para usarlos. Si lo tuyo no es programar puede que uses herramientas como Excel. Si prefieres no usar software propietario, puedes probar con alternativas al paquete de Office como:
También puedes usar http://openrefine.org/ una herramienta gratuita especialmente creada para la limpieza de datos.
Para hacer visualizaciones:
Estas son algunas herramientas que puedes usar para hacer tu visualización:
- Infografías: Puedes encontrar herramientas online que ofrecen ciertas características gratuitas para poder hacer bonitas infografías.
- Gráficos: Puedes explicar lo que los datos están contando mediante uno o varios gráficos. Algunas herramientas online y APIs como la de Google te permiten hacerlo.
- Líneas de tiempo. Si los datos ocurren a lo largo del tiempo, ¿por qué no contarlos así?.
- Mapas. Si los datos tienen coordenadas, ¡posiciónalos en un mapa!
- https://carto.com/
- Recuerda que hay un premio especial vinculado al uso de CARTO. Si quieres usar CARTO puedes pedir una mejora en tu cuenta en el siguiente enlace: https://docs.google.com/forms/d/e/1FAIpQLSeyl38-Yp2zF-YpfMZAvF26PiKh6OBQWlmERKTo1K7qOa_iew/viewform?c=0&w=1
- http://leafletjs.com/
- https://www.mapbox.com/
- https://carto.com/
- Visualizaciones interactivas.
- Herramientas para desarrolladores. Si lo tuyo es programar, ¡pues programa una visualización!
En estas webs puedes ver una serie de ejemplos que podrían inspirarte:
En esta puedes ver una recopilación de todas estas herramietas y otras: http://keshif.me/demo/VisTools
Para crear herramietas (programando):
Se trata de que el usuario pueda ver los datos, manipularlos, combinarlos, jugar con ellos, descargarlos o visualizarlos sin tener ningún tipo de conocimiento previo. Una herramienta de este tipo, a gran escala, sería Google Maps, la web de AEMET o los indicadores del FECYT.
Puedes utilizar los lenguajes, plugins, frameworks o CMS. Aquí tienes algunos enlaces interesantes sobre librerías de JavaScript, por si quieres incluir visualizaciones o mapas:
- http://d3js.org/
- http://www.flotcharts.org/
- http://www.humblesoftware.com/flotr2/index
- http://code.shutterstock.com/rickshaw/
- http://openlayers.org/
- http://leafletjs.com/
Categoría Predicción:
En la categoría 4-Aprendizaje Automático se premiará la aplicación que utilice datos abiertos para predecir situaciones futuras, mediante el uso de técnicas de aprendizaje automático.
Para realizar la predicción puedes usar lenguajes como R. Algunas librerías interesantes para realizar los modelos pueden ser estas:
- https://cran.r-project.org/web/packages/caret/index.html
- https://cran.r-project.org/web/packages/car/index.html
- https://cran.r-project.org/web/packages/randomForest/index.html
Si no sabes/quieres programar, también puedes usar aplicaciones como:
- http://www.cs.waikato.ac.nz/~ml/weka/
- https://rapidminer.com/products/studio/
- http://www.clowdflows.org/
- https://www.knime.org/
- http://www.h2o.ai
Recuerda que se valorará el uso de la herramienta de BigML. Aquí puedes ver un tutorial: http://innovaskynet.blogspot.com.es/2014/09/tutorial-de-bigml-un-ejemplo-practico.html
Toda la información sobre el evento aquí: http://dataupv.webs.upv.es/ii-opendatathon-etsinf-upv/
Si tienes alguna duda, puedes preguntarnos en dataupv@gmail.com