O mercado de imóveis possui grande potencial para ser impulsionado pela utilização de Ciência de Dados e neste post abordamos alguns casos de uso em potencial e mostramos um projeto por dentro de um caso real na cidade de Dublin.
Há uma corrida nos grandes players do setor imobiliário de forma global para explorar o potencial do Big Data, incorporar Machine Learning e adotar abordagens baseadas em dados. No entanto, os profissionais do setor estão enfrentando desafios para descobrir como realmente utilizar os dados.
A pesquisa KPMG Global PropTech Survey apurou que 80% das empresas ainda não têm “a maior parte ou a totalidade” de suas tomadas de decisão conduzidas por dados e que apenas 5% têm esforços de transformação digital liderados por alguém com conhecimento de análise de dados.
Nelson Lau, PhD em Ciências da Decisão e CEO da PropertyQuants, empresa de Cingapura que aplica métodos de ciência de dados a imóveis, cita alguns pontos de como é possível aplicar Data Science no mercado imobiliário.
Índices de preços de propriedade
Cada transação relatada em imóveis representa a troca de um ativo único – e nunca duas propriedades são idênticas. Mesmo quando duas unidades no mesmo prédio são negociadas, elas podem ser drasticamente diferentes e os preços podem mudar consideravelmente. Isso apresenta um problema específico para o setor imobiliário, a saber, como aproveitar grandes conjuntos de dados para entender o desempenho de cada segmento?
A obtenção de médias simples de transações históricas pode ser tendenciosa se o desvio padrão for muito alto, ou seja, se os tipos de propriedades transacionadas em cada período variam demais, e há subjetividade na determinação de outliers. Nesse sentido, os métodos de ciência de dados apresentam várias soluções para o problema.
Algumas técnicas de regressão operam com o princípio de que as características individuais de cada propriedade podem ser precificadas separadamente, para controlar as diferenças entre os ativos. Como alternativa, a análise pode se restringir apenas a comparar as mudanças de preço em propriedades que são vendidas mais de uma vez. Isso é conhecido como método de vendas repetidas – ou seja, rastrear a mudança de preço no mesmo ativo ao longo do tempo.
Fundamentalmente, esses métodos permitem que os usuários excedam a capacidade humana, trabalhando em mais dados do que qualquer pessoa poderia conseguir manualmente para produzir sinais precisos do desempenho do mercado imobiliário. Milhões de linhas de dados transacionais podem ser combinadas com informações sobre localidade, características de propriedade, dados demográficos e muito mais, para produzir índices de submercado granulares.
Por exemplo, os índices podem apontar estimativas de ROI das propriedades em bairros específicos ou comparar a valorização de imóveis que possuam três quartos em comparação com imóveis de dois quartos, o que ajuda na precificação atual e estimativa de retorno futuro.
Modelos automatizados de avaliação de preços
O objetivo de qualquer modelo de avaliação automatizado é aproveitar os dados para produzir uma estimativa do valor de uma propriedade, ou seja, um preço “justo” para uma transação entre um comprador e um vendedor dispostos, em condições normais de mercado.
Abordagens semelhantes às da indexação são empregadas, com técnicas de ciência de dados potencialmente mais avançadas sendo implantadas para aproveitar as vantagens do aprendizado online e métodos de agrupamento. No entanto, o resultado final é diferente. Em vez de um índice, a meta é uma estimativa pontual (ou intervalo) do valor de um ativo. O benefício direto é uma maior precisão no valor justo de mercado de um imóvel, produzido de forma instantânea e com baixo custo. Essas avaliações são úteis não apenas para precificar propriedades, mas também para avaliar as hipotecas e carteiras de empréstimos que garantem esses ativos.
Uma aplicação interessante dessa tecnologia é vista em empresas como Opendoor e Properly , que precificam imóveis e colocam-nos à venda automaticamente, proporcionando aos proprietários liquidez imediata para seus ativos.
Análise de Cluster
Evidentemente, o desempenho imobiliário varia muito de acordo com a localização. A análise de cluster identifica rigorosamente os padrões nos dados, ajudando a determinar quais grupos de propriedades têm maior probabilidade de desempenho semelhante e quais têm maior probabilidade de divergir.
Outra aplicação da análise de cluster é determinar os períodos de tempo em que o desempenho do mercado imobiliário pode ser mais ou menos semelhante. Muitos mercados imobiliários são fortemente afetados pela intervenção governamental, como no Brasil. Pode haver muitas mudanças significativas na legislação, fazendo com que os preços e o comportamento do investimento variem ao longo do tempo. A análise de cluster pode ajudar a identificar períodos de tempo em que o desempenho de preços provavelmente será mais semelhante.
A análise de cluster nos ajuda a construir modelos direcionados para cada grupo (ou período de tempo), aumentando a precisão. Também pode ser usado para orientar a estratégia de negócios – determinando quais segmentos do mercado as diferentes equipes devem visar ou em que regime de investimento o mercado provavelmente estará, os líderes podem tomar decisões mais lucrativas com base em dados.
Por dentro da Ciência de Dados imobiliária
Um exemplo do poder da Ciência de Dados no mercado imobiliário é narrado por Andrea Ialenti, que utilizou seus conhecimentos quando ele e a esposa decidiram comprar uma nova casa em Dublin, capital da Irlanda, em 2020.
O cenário imobiliário local era:
-
Poucos imóveis para o orçamento do casal, principalmente se considerar as áreas de alta demanda da cidade;
-
Baixa qualidade dos imóveis, pois os proprietários não tinham interesse em reformar antes de vender, então eram comuns opções baixa classificação de energia por conta de sistemas elétricos ruins, além de encanamentos velhos – ou seja, os compradores precisariam custear reformas para se mudarem;
-
As vendas são baseadas em um sistema de licitação e elas costumam ultrapassar o preço inicial pedido.
Como todos que procuram um imóvel para comprar, Andrea queria encontrar a casa perfeita, no local perfeito, a um preço acessível. E a Ciência de Dados o ajudou muito na pesquisa.
Andrea compartilha a história completa no Medium mas, de forma resumida, o seu processo foi:
-
Capturar informações em massa dos sites de imobiliárias e outros sites, como localização, características dos imóveis, preço médio, tempo disponível da casa no mercado, tipo de imóvel: se casa, apartamento ou construção nova;
-
Aprimorar os dados coletados para descobrir, por exemplo, quais imóveis ficavam a, no máximo, 50 minutos de deslocamento do centro da cidade. Para isso, utilizou APIs como Google Places, de Geocoding e de Rotas;
-
Criar um painel de visualização de dados no Google Data Studio, já que é gratuito e lê dados de planilhas do Google. O fluxo de trabalho resumido ficou assim:
O arquivo de dados brutos ao final de tudo ficou com as seguintes informações:
id: Um identificador para a lista
_address: O endereço da propriedade
_d_code: Código de área de Dublin. Cada área de Dublin é identificada por um código no formato D<number>. Quando o <number>é par, o endereço está localizado ao sul do Liffey (rio que corta a cidade), enquanto se o número for ímpar, o endereço está localizado na margem norte do rio.
_link: O link para a página original onde a listagem foi recuperada.
_price: O preço pedido da propriedade em euros.
type: O tipo de propriedade
_bedrooms: Numero de quartos.
_bathrooms: Número de banheiros.
_ber_code: Um código que identifica a classificação energética, quanto mais próximo da letra A, melhor é a classificação energética.
_views: As visualizações obtidas pela listagem (se disponível).
_latest_update: Quando a listagem foi atualizada ou criada (se disponível).
days_listed: Este é um campo calculado e é a diferença entre a data em que os dados foram coletados e a _last_update coluna.
Depois de usar os dados para treinar modelos, Andrea chegou ao painel final de visualização:
Inclusive, a dashboard no Google Data Studio está disponível para quem quiser visualizar e navegar.
O mapa é o elemento visual mais importante do painel. A cor das bolhas depende do preço da casa/apartamento e a coloração considera apenas as propriedades visíveis (aquelas que combinam com os filtros no canto superior direito); o tamanho indica a distância do trabalho: quanto menor a bolha, mais curto é o trajeto.
Os gráficos visam analisar como o preço pedido muda dependendo de algumas características (por exemplo, o tipo de edifício ou o número de quartos); o gráfico de dispersão, tenta relacionar o deslocamento diário versus o preço pedido.
Mergulhando na análise para extrair insights do painel com cerca de 4.000 imóveis, Andrea refinou os critérios de pesquisa para corresponder a estas características que ele e sua esposa buscavam:
Tipo de propriedade: casa
Número de quartos: 3
Tempo de deslocamento para o trabalho: menos de 60 minutos
Classificação de energia: A, B, C ou D
Preço: de 250k a 540k euros
A decisão ainda passa por duas questões: fazer uma pesquisa mais econômica? Ou olhar a melhor casa até o limite do orçamento? Isso não faz parte de uma análise de ciência de dados, mas é uma decisão real de negócios. E, nesse caso, muito pessoal.
Optando pela segunda opção, os 4.000 imóveis iniciais já se restringem para cerca de 200:
Conhecendo um pouco a área e aplicando um algoritmo de clusterização, chega-se à seguinte divisão:
Andrea não quer priorizar áreas com preços mais baixos, busca maximizar o orçamento da casa e se locomover com facilidade; por isso, já filtra os clusters 2, 3, 4, 6 e 9. Os clusters 2, 3 e 4 estão entre as áreas mais econômicas de North Dublin, devido ao transporte público deficiente. O cluster 11 é caro e distante, então também será removido.
Olhando para os agregados mais caros, o número 7 é um dos melhores em termos de deslocamento diário. É Drumcondra , uma bela área residencial em Dublin North; embora Drumcondra não seja bem servida pelo metrô, tem boas conexões de ônibus; o cluster 8 tem custos e deslocamento semelhantes aos do Drumcondra. Outro agrupamento que pode valer a pena analisar é o número 10: parece estar em uma área com oferta menor, o que significa que é provavelmente um lugar onde as pessoas são menos propensas a vender, e ainda está decentemente conectada graças à ferrovia.
Por último, os Clusters 1 e 5 estão muito próximos do Phoenix Park, o maior parque público fechado de qualquer capital da Europa.
Pronto! Restaram cerca de 26 propriedades a serem consideradas.
No final das contas, após essa análise, Andrea e a esposa economizaram muito tempo deles e dos agentes imobiliários: visitaram quatro casas, entraram na disputa por três e ganharam uma, que hoje é o seu novo lar.
Esse é o poder da Ciência de Dados aplicada ao mercado imobiliário. Não sabíamos praticamente nada sobre Dublin e acabamos entendendo bem quais são as zonas da cidade mais solicitadas pelos compradores de casas. Ao simplesmente olhar para um painel bem organizado, descobrimos uma série de insights que não sabíamos quando essa jornada começou.
Este é apenas um exemplo, mas que pode ser levado para uma série de outros cenários para extrair dos dados muito poder e vantagens para as empresas.
O PhD Nelson Lau avalia que o setor imobiliário provavelmente está apenas no início de uma mudança significativa em direção a uma maior tomada de decisões com base em dados. Há uma variedade de métodos concretos – conforme descrito neste post – para aplicar ciência de dados ao segmento, para ajudar a mover de milhões de linhas de dados para entendimentos granulares do desempenho de diferentes segmentos e fazer investimentos e negócios com decisões melhor informadas.
Leia também: O uso de dados que faz o QuintoAndar subir cada vez mais. As práticas de dados e tecnologia que fazem a startup do setor imobiliário uma das mais emergentes no Brasil.