澳門氣象·天文 – 民間角度·分析氣象

澳門早期氣象紀錄資料庫

Base de Dados dos Registos Meteorológicos Primordiais de Macau (ReMPM)

Tratamento de digitalização de dados meteorológicos

1️⃣ O que é o tratamento de digitalização?

O tratamento de digitalização refere-se ao processo de transcrição das letras e números constantes de documentos em papel ou de arquivos em formato de imagem para valores numéricos informáticos legíveis. Algumas pessoas designam esses dados numéricos por “dados resgatados” (Oleo S. et al., 2020).

2️⃣ Por que é que é necessário o tratamento de digitalização dos dados com mais de cem anos?

  • Estar, provavelmente, em risco de deterioração ou extravio por parte de registos de observações em papel;
  • Efectuar-se um grande número de estatísticas através de computador;
  • Analisar-se os valores extremos, tais como, a temperatura máxima do ar e a precipitação máxima de um só dia nos últimos cem anos, para determinar a frequência de ocorrência de clima extremo, aplicando-se os mesmos na investigação de prevenção de desastres;
  • Proceder-se a investigação climática a longo prazo, contribuindo para a criação de modelos climáticos;
  • Impulsar a ciência civil, despertando o interesse público daquela área; 

  • Proteger os importantes patrimónios científicos locais.

3️⃣ Como é que se procede ao tratamento de digitalização?

  • Transcrição manual:
    Digitam-se os dados no computador através de teclado, contudo, este procedimento é moroso, tomando-se o nosso website como um exemplo, a inserção dos dados de temperatura do ar de um ano passa, normalmente, algumas horas. Todavia, este método é muito adoptado na transcrição dos arquivos históricos, porque, esses arquivos são, na sua maioria, manuscritos, podendo o cérebro humano identificar exactamente os dados manuscritos distintos.
  • Reconhecimento de caracteres:
    O Reconhecimento Óptico de Caracteres (OCR) ou Reconhecimento Inteligente de Caracteres (ICR) pode, automaticamente, transcrever as letras e os números dos arquivos de imagem para valores numéricos informáticos legíveis. Este método pode digitalizar um número considerável de dados, no entanto, quanto aos arquivos de imagem manuscritos e desfocados, a taxa de erro pode ser relativamente grande e até podem não ser reconhecidos. Além do mais, o reconhecimento dura, geralmente, muito tempo no âmbito de desenvolvimento e de codificação, resultando na subida dos custos de desenvolvimento.
  • Sublinha-se que podem existir os erros em qualquer tratamento de digitalização, portanto a verificação e o controlo de qualidade na fase posterior são extremamente importantes.

※ Data da última actualização: 2022-07-19 10:35 MST