O que é a ciência de dados
(data science). Discussão do conceito
Luís Borges Gouveia
Universidade Fernando Pessoa
Versão 1.0, Outubro, 2015
Data science ou a ciência de dados
• É o estudo de onde tem origem a informação, o que
representa e como pode ser transformada numa fonte
valiosa para a criação de negócio e de estratégias para
o contexto em análise
• A exploração de quantidades massivas de dados
estruturados e não estruturados para identificar
padrões que podem ajudar uma organização no
controle de custos, aumento de eficiência,
reconhecimento e descoberta de novos mercados e
oportunidades e aumento de vantagem competitiva
• Transformação de dados disponíveis em informação,
com recurso a técnicas de análise de dados,
experiência, mas também inteligência e criatividade
O perfil multidisciplinar do profissional
da ciência de dados
A história e contribuições para a
formação da ciência de dados
Multidisciplinaridade da ciência de
dados
A ciência de dados face às ciências da
computação
Peso económico e relevância da
análise de dados
Uma enorme massa de dados e os
desafios associados
Os dados massivos são mais do que a sua quantidade (como
extrair valor, em tempo útil, de um grande volume de dados)
Diferenciar a inteligência de negócios, da
análise de dados e da ciência de dados
O exponencial crescimento dos dados,
ocorre em várias categorias
Apesar de tudo, ainda existe
informação analógica a considerar
A ciência de dados é aplicada a diferentes setores (por
exemplo, RFID, em 2015, representa quase 23% do total)
O maior crescimento é o de dados não
estruturados (dentro e fora da empresa)
Componentes (e ferramentas) da
ciência de dados
As origens dos dados e o seu tipo
A explosão de dados é essencialmente
a explosão dos dados não estruturados
O que se pretende dizer por
quantidades massivas de dados?
Até onde vai escalar o crescimento de
dados?
O crescimento dos dados não estruturados vai
mudar o paradigma da sua gestão, nas empresas
Nem todos os dados não estruturados
tem a mesma origem
Dados estruturados versus dados não
estruturados (origem)
De que estamos a falar, quando
falamos de dados não estruturados?
Papeis, competências e atividades no
contexto da ciência de dados
Relacionar dados por recurso a
modelos apropriados
As diferenças entre inteligência de
negócios e a ciência de dados
Lidar com dados massivos exige novos
tipos de respostas pelas empresas
Descobrir dados para inteligência de negócios e
modelos para a ciência de dados
O processo de produção da ciência de
dados (criar modelos e tomar decisões)
Existe uma multiplicidade de ferramentas associadas
com cada um dos processos de ciência de dados
Comentários finais
• Área de grande potencial
• Existe um enorme leque de aplicação
• A enfase deve ser na ciência e não nos dados
• Os profissionais de ciência de dados são
especialistas de análise de dados que
possuem competências técnicas para resolver
problemas complexos e a curiosidade de
explorar quais os problemas que devem ser
resolvidos
Tarefas típicas de profissionais de
ciência de dados
• Recolher grandes quantidades de dados não tratadas para
transformar em dados úteis
• Resolver problemas relacionados com negócio ou contextos bem
definidos, com recurso a técnicas orientadas a dados
• Trabalhar com uma variedade de linguagens de programação
• Dominar conceitos estatísticos, incluindo distribuições e testes
estatísticos
• Dominar e acompanhar o estado de arte de técnicas analíticas
como aprendizagem automática, deep learning e análise de texto
• Comunicar com equipas técnicas e de gestão
• Descobrir critérios e ordem em padrões de dados, bem como
identificar tendências que podem contribuir para a eficácia do
negócio ou do contexto em estudo
Técnicas e ferramentas para a ciência
de dados
• Visualização de dados: a apresentação de dados de forma gráfica de
modo a ser mais facilmente entendida
• Aprendizagem automática: um ramo da inteligência artificial
baseado em algoritmos matemáticos e na automação
• Deep learning: uma área da investigação em aprendizagem
automática que usa os dados para modelar abstrações complexas
• Reconhecimento de padrões: tecnologia que reconhece padrões
em dados
• Preparação de dados: o processo de conversão dos dados em bruto
num formato que possa ser mais facilmente tratado ou consumido
• Análise de texto: o processo de examinar dados não estruturados
de forma a extrair aspetos relevantes sobre o negócio ou o contexto
em estudo
Oportunidade e valor

O que é a ciência de dados (data science). Discussão do conceito

  • 1.
    O que éa ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.0, Outubro, 2015
  • 2.
    Data science oua ciência de dados • É o estudo de onde tem origem a informação, o que representa e como pode ser transformada numa fonte valiosa para a criação de negócio e de estratégias para o contexto em análise • A exploração de quantidades massivas de dados estruturados e não estruturados para identificar padrões que podem ajudar uma organização no controle de custos, aumento de eficiência, reconhecimento e descoberta de novos mercados e oportunidades e aumento de vantagem competitiva • Transformação de dados disponíveis em informação, com recurso a técnicas de análise de dados, experiência, mas também inteligência e criatividade
  • 3.
    O perfil multidisciplinardo profissional da ciência de dados
  • 4.
    A história econtribuições para a formação da ciência de dados
  • 5.
  • 6.
    A ciência dedados face às ciências da computação
  • 7.
    Peso económico erelevância da análise de dados
  • 8.
    Uma enorme massade dados e os desafios associados
  • 9.
    Os dados massivossão mais do que a sua quantidade (como extrair valor, em tempo útil, de um grande volume de dados)
  • 10.
    Diferenciar a inteligênciade negócios, da análise de dados e da ciência de dados
  • 11.
    O exponencial crescimentodos dados, ocorre em várias categorias
  • 12.
    Apesar de tudo,ainda existe informação analógica a considerar
  • 13.
    A ciência dedados é aplicada a diferentes setores (por exemplo, RFID, em 2015, representa quase 23% do total)
  • 14.
    O maior crescimentoé o de dados não estruturados (dentro e fora da empresa)
  • 15.
    Componentes (e ferramentas)da ciência de dados
  • 16.
    As origens dosdados e o seu tipo
  • 17.
    A explosão dedados é essencialmente a explosão dos dados não estruturados
  • 18.
    O que sepretende dizer por quantidades massivas de dados?
  • 19.
    Até onde vaiescalar o crescimento de dados?
  • 20.
    O crescimento dosdados não estruturados vai mudar o paradigma da sua gestão, nas empresas
  • 21.
    Nem todos osdados não estruturados tem a mesma origem
  • 22.
    Dados estruturados versusdados não estruturados (origem)
  • 23.
    De que estamosa falar, quando falamos de dados não estruturados?
  • 24.
    Papeis, competências eatividades no contexto da ciência de dados
  • 25.
    Relacionar dados porrecurso a modelos apropriados
  • 26.
    As diferenças entreinteligência de negócios e a ciência de dados
  • 27.
    Lidar com dadosmassivos exige novos tipos de respostas pelas empresas
  • 28.
    Descobrir dados parainteligência de negócios e modelos para a ciência de dados
  • 29.
    O processo deprodução da ciência de dados (criar modelos e tomar decisões)
  • 31.
    Existe uma multiplicidadede ferramentas associadas com cada um dos processos de ciência de dados
  • 32.
    Comentários finais • Áreade grande potencial • Existe um enorme leque de aplicação • A enfase deve ser na ciência e não nos dados • Os profissionais de ciência de dados são especialistas de análise de dados que possuem competências técnicas para resolver problemas complexos e a curiosidade de explorar quais os problemas que devem ser resolvidos
  • 33.
    Tarefas típicas deprofissionais de ciência de dados • Recolher grandes quantidades de dados não tratadas para transformar em dados úteis • Resolver problemas relacionados com negócio ou contextos bem definidos, com recurso a técnicas orientadas a dados • Trabalhar com uma variedade de linguagens de programação • Dominar conceitos estatísticos, incluindo distribuições e testes estatísticos • Dominar e acompanhar o estado de arte de técnicas analíticas como aprendizagem automática, deep learning e análise de texto • Comunicar com equipas técnicas e de gestão • Descobrir critérios e ordem em padrões de dados, bem como identificar tendências que podem contribuir para a eficácia do negócio ou do contexto em estudo
  • 34.
    Técnicas e ferramentaspara a ciência de dados • Visualização de dados: a apresentação de dados de forma gráfica de modo a ser mais facilmente entendida • Aprendizagem automática: um ramo da inteligência artificial baseado em algoritmos matemáticos e na automação • Deep learning: uma área da investigação em aprendizagem automática que usa os dados para modelar abstrações complexas • Reconhecimento de padrões: tecnologia que reconhece padrões em dados • Preparação de dados: o processo de conversão dos dados em bruto num formato que possa ser mais facilmente tratado ou consumido • Análise de texto: o processo de examinar dados não estruturados de forma a extrair aspetos relevantes sobre o negócio ou o contexto em estudo
  • 35.