Esta artigo é uma introdução para uma série, onde será dado algumas dicas de utilização de R, um software livre para a ciência dos dados.
Em 2013 aproveitando alguma ociosidade advinda de um ano ‘sabático’, depois de muito refletir sobre tecnologias para aprender, finalmente decidi que iria me dedicar a ampliar meus conhecimentos sobre um software livre que há muito tempo despertava interesse, mas, que eu relutava em avançar, o R.
Sim, relutava, pois um software livre você deve se apropriar, e sendo um consultor, para incorporar uma nova tecnologia ao arsenal de tecnologias abertas, a “pegada” tem de ser mais agressiva e imersiva, principalmente para que a química funcione e a mistura com os conhecimentos já trabalhados seja homogênea. Isto significa ter uma dedicação focada, estudar, instalar, integrar, configurar, testar, utilizar, falar bem, defender, divulgar, ensinar, interagir, criar casos de uso, enfim, evangelizar, ser e fazer parte do ecossistema.
O terreno a ser percorrido, sempre parecia um pouco árido, ainda que o software me parecesse fantástico, acompanhava o assunto já fazia alguns anos, entretanto, era um pouco complicado dissociar o R do Octave, MathLab, FreeMat, Scilab entre outros tantos que pareciam mais afeitos a usos científicos do que empresariais. E sinceramente, não tenho conhecimento suficiente nos outros softwares para saber porque o R acabou despontando. Surge um palpite que é que em tempos de popularidade da ciência dos dados o R assume um lugar entre as ferramentas já conhecidas do mercado como SPSS, SAS, MINITAB e STATA por ser um software livre, maduro, flexível e com uma comunidade de milhões entre usuários e desenvolvedores.
E o que é mais interessante é que na pagina do R nem tem nenhuma das palavras : Intuitive, Powerful, Complete, low learning curve, WYSIWYG, predictive, analytics, big data, integrated, leader, know gear e outros adjetivos e características de produtos. No R quem vai criar o produto é você, o que o R vai fazer é disponibilizar um ambiente flexível, agnóstico e poderoso e para que você possa materializar suas ideias, elucubrações, inferências e conclusões através de algorítimos, mais ou menos como se fazia com planilhas de cálculos na pré-históRia, só que com muito mais recursos.
Ainda não sei se o ambiente corporativo ficou mais científico ou ao contrário, o fato é que o optei por conhecer melhor o R e incorporá-lo a caixinha de ferramentas para dar um pouco mais de inteligência ao suporte tecnológico para os negócios.
Vejo também que o R é um bom exemplo software que estabelece uma ponte de mão dupla que liga os ambientes geradores de conhecimentos e os ambientes que usam estas mesmas ferramentas e conhecimentos para gerar novas informações e conhecimentos diferentes criando um circulo virtuoso de ampliação de conhecimento de forma mais abrangente repetindo o que as parcerias de comunidades (humanidade+empresa) GNU/Linux (acadêmia+empresas) contribuiu no final do milênio passado para definir o que é a tecnologia da informação para ser lapidada nos anos 2000.
Além da aparência de ciência em estado bruto, sem os Beatifull, intuitive e eye-candy dos produtos de mercado, o R necessita de uma internalização e especialização para ser aplicável, o software R possui um ambiente próprio e um ecossistema bem vasto. De qualquer lado que se faça a abordagem necessariamente você terá que percorrer um caminho para conseguir alguns resultados mais elaborados, existe uma curva de aprendizagem multidisciplinar.
Os desafios começam assim que você começa : Se você consegue instalar com certa facilidade, pode ser não consiga progredir por não conhecer estatística. Se, por outro lado, você conhece estatística, pode ser que tenha dificuldade para importar dados por não saber como conectar e consumir bancos de dados. Se os bancos de dados e estatística não são desafios, pode ser que performance e armazenamento sejam, pois, poderá aí irá precisar de processamento em grande escala, paralelo em cluster de computadores, enfim sempre teremos desafios, o que é de certo modo bom e divertido pois requer conhecimentos continuados.
Mas, à medida que as barreiras iniciais são superadas a você vai ganhando uma extensão da sua mente muito mais poderosa que qualquer planilha de cálculo pode ser e vai incorporando novas funcionalidades em sua própria maneira de pensar.
Ou seja , será bom conhecer ter uma base em sistema operacional, banco de dados, estatística, manipulação de matrizes, matemática, programação e infraestrutura de computação dedicando algum tempo para complementar as lacunas, a maioria do material está em Inglês, como não poderia deixar de ser 🙁 . Em português, até onde pesquisei temos só até a página 2. 🙂
Nos próximos artigos começaremos a divulgar a uma sequência de conhecimentos complementares, segmentado por tipo de especialista e paralelamente a isto, vamos publicando aqui no blog e na página do grupo no Facebook os conteúdos para criarmos uma base referencial com materiais didáticos.
Até o próximo.
estou nesse caminho , estou fazendo pos na infnet sobre big data , parabens pela sua materia