Tutorial de LangChain para WhatsApp

Como criar um agente de IA para WhatsApp com LangChain e Whapi.Cloud: tutorial em Python

Updated on June 1, 2026

Este tutorial da Whapi.Cloud mostra a desenvolvedores Python como criar um agente de IA para WhatsApp com LangChain e LangGraph em um único webhook hospedado. Você monta o ciclo de receber, raciocinar e responder e, em seguida, dá a cada contato uma memória própria definindo o thread_id do LangGraph como o número de telefone do remetente. As respostas voltam como texto livre pela API da Whapi.Cloud, sem túnel local e sem verificação de empresa na Meta para configurar antes. Foi escrito para desenvolvedores backend acostumados com FastAPI e pip.

Build a WhatsApp AI agent with LangChain, LangGraph and Whapi.Cloud in Python

TL;DR: Execute o ciclo de receber, raciocinar e responder em um único webhook da Whapi.Cloud. Defina o thread_id do LangGraph como o número de telefone do remetente com um checkpointer, para que cada contato mantenha sua própria memória. Retorne um HTTP 200 em menos de um segundo e rode o agente em uma tarefa em segundo plano. Sem ngrok, sem verificação da Meta e sem modelos de mensagem. Comece com o MemorySaver e troque por um checkpointer no Postgres para produção.

O ciclo de três etapas que todo agente de WhatsApp executa

Um agente de IA para WhatsApp é um único ciclo: receber a mensagem, raciocinar com um agente que usa ferramentas e enviar a resposta. Todo o resto é a fiação em torno dessas três etapas.

Ciclo de receber, raciocinar e responder de um agente de IA para WhatsApp em um único webhook da Whapi.Cloud

Nesta montagem, uma rota do FastAPI recebe a mensagem recebida da Whapi.Cloud, um agente do LangGraph movido pelo ChatOpenAI decide o que fazer e uma única chamada REST envia a resposta de volta. O número de telefone que mandou mensagem para você é o único identificador que você precisa carregar pelas três etapas.

Conecte o número e aponte um webhook para o seu app

Escaneie um QR code para conectar o número e depois cole sua URL pública nas configurações de webhook do canal. As mensagens recebidas chegam como POSTs em JSON no momento em que um contato escreve para você.

Na API oficial do WhatsApp Business, você teria que registrar um app, passar pela verificação de empresa da Meta e executar um handshake de verificação antes que uma única mensagem chegasse ao seu código. Com a Whapi.Cloud, você conecta um número de WhatsApp comum escaneando um QR code, o mesmo pareamento que o WhatsApp Web usa, e a API fica ativa em cerca de dois minutos. Não há fila de revisão da Meta entre você e o seu primeiro payload recebido.

Defina a URL do webhook com a rota /webhook do seu app já publicado e inscreva-se no evento messages nas configurações do canal. A Whapi.Cloud então envia por POST cada mensagem recebida para essa rota. O handler do FastAPI abaixo lê o número de telefone do remetente e o corpo do texto do payload.

Configuração da URL do webhook e do evento messages nas configurações do canal da Whapi.Cloud — A tela de configurações do canal onde você cola a URL do webhook e se inscreve no evento messages.


# webhook.py -- receives inbound WhatsApp messages from Whapi.Cloud
from fastapi import FastAPI, Request

app = FastAPI()

@app.post("/webhook")
async def webhook(request: Request):
    data = await request.json()
    # Whapi delivers inbound messages in a "messages" array.
    for msg in data.get("messages", []):
        if msg.get("from_me"):
            continue  # skip your own outgoing messages echoed back
        sender = msg["from"]              # the contact's phone number, e.g. "14155551234"
        text = msg.get("text", {}).get("body", "")
        print(f"{sender}: {text}")
    return {"status": "ok"}

Esse valor sender é a espinha dorsal de todo o agente. Ele diz a quem responder e, em um instante, vira a chave que mantém cada conversa separada. Consulte a documentação da API da Whapi.Cloud para ver o esquema completo da mensagem recebida.

Crie o agente ReAct que escolhe ferramentas, age e depois observa

Um agente ReAct do LangGraph é um LLM que escolhe uma ferramenta, executa, lê o resultado e repete até conseguir responder. O LangGraph fornece o ciclo; você fornece o modelo e as ferramentas.

O LangChain dá a você o wrapper do modelo e as abstrações de ferramentas. O create_react_agent do LangGraph conecta tudo em um grafo com estado para que o agente possa chamar uma ferramenta, observar a saída e decidir o próximo passo. Você define cada capacidade como uma função simples decorada com @tool e depois entrega a lista ao agente.


# agent.py -- a tool-using ReAct agent
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool
from langgraph.prebuilt import create_react_agent

# Define tools as standalone functions.
# Decorating a bound method (def check_slots(self, ...)) raises a
# duplicate "self" argument error at agent-build time -- keep tools module-level.
@tool
def check_appointment_slots(day: str) -> str:
    """Return free appointment slots for a given day."""
    return "09:00, 11:30, 16:00"

model = ChatOpenAI(model="gpt-4o", temperature=0)
agent = create_react_agent(
    model,
    tools=[check_appointment_slots],
    prompt="You are a clinic's WhatsApp assistant. Keep replies short.",
)

O argumento prompt define as instruções permanentes do agente e é reaplicado a cada turno, de modo que o papel do assistente permanece estável mesmo quando a conversa cresce. Mantenha as ferramentas pequenas e com um único propósito: uma para ler horários de consulta, outra para consultar um pedido e outra para escalar para um humano. O modelo decide qual chamar pelo nome da ferramenta e pela docstring, então escreva os dois como se fossem a documentação de uma API.

Esse agente já consegue raciocinar e chamar uma ferramenta. O que ele ainda não consegue fazer é lembrar de nada. Invoque-o duas vezes e a segunda mensagem começa do zero, porque nada liga uma chamada à seguinte. Na prática, é nessa lacuna que a maioria das primeiras montagens parece quebrada.

Defina o thread_id como o número de telefone e cada usuário mantém a própria memória

Conecte um checkpointer e passe um thread_id igual ao número de telefone do remetente em cada chamada. Essa única linha é a diferença entre um cérebro compartilhado e uma memória por contato.

Padrão de memória por usuário: o número de telefone como thread_id do LangGraph com um checkpointer

Sem um checkpointer, todos os usuários compartilham um mesmo estado de conversa, então a segunda pessoa a mandar mensagem herda o contexto da primeira. Com um checkpointer mais um thread_id por usuário, cada contato ganha um thread isolado. Use o número de telefone do webhook como esse thread_id e o roteamento se resolve sozinho. Chamamos isso de regra do telefone como thread_id, e é a decisão que sustenta toda a montagem.


# memory.py -- one isolated conversation per phone number
from langgraph.checkpoint.memory import MemorySaver
from langgraph.prebuilt import create_react_agent

checkpointer = MemorySaver()  # in-memory; resets on restart
# For production, swap one line:
# from langgraph.checkpoint.postgres import PostgresSaver
# checkpointer = PostgresSaver.from_conn_string("postgresql://...")

agent = create_react_agent(model, tools=tools, checkpointer=checkpointer)

def reply_for(sender: str, text: str) -> str:
    # thread_id = phone number -> each contact keeps a separate conversation
    config = {"configurable": {"thread_id": sender}}
    result = agent.invoke({"messages": [("user", text)]}, config=config)
    return result["messages"][-1].content

O MemorySaver mantém cada thread na memória e é perfeito para o protótipo. Ele esquece tudo ao reiniciar, o que não é problema até a hora de publicar. A regra do telefone como thread_id não muda quando você vai para produção; só muda o armazenamento por trás do checkpointer. Agentes de WhatsApp de código aberto rodando em produção usam exatamente esse padrão, indexado pelo número de telefone.

Por que «usar o ngrok e a Business API» quebra primeiro

O caminho comum dos tutoriais arrasta um túnel local, modelos de mensagem e uma janela de resposta de 24 horas antes de qualquer lógica de IA rodar. O caminho de um único webhook pula os três.

É provável que você primeiro recorra à configuração padrão: um túnel ngrok para que a Meta alcance o seu notebook, mais a Business API oficial para enviar. É exatamente aqui que ela quebra. A URL do túnel muda a cada reinício e cai sem aviso, então o seu webhook para de receber em silêncio enquanto o seu código parece estar certo. E aí o lado do envio adiciona o seu próprio atrito.

Na API oficial do WhatsApp Business, qualquer mensagem que você inicie fora de uma janela de 24 horas precisa ser um modelo aprovado previamente, e cerca de um em cada três modelos é rejeitado na primeira revisão por questões de formato ou de categoria. Desde 1º de julho de 2025, a Meta também cobra por modelo de mensagem entregue, com preço por categoria e país, um modelo com vários custos ocultos para desenvolvedores. Com a Whapi.Cloud, o agente responde com um texto livre por meio de uma única chamada de API, então não há fila de aprovação de modelos nem cobrança por modelo para fiscalizar. Esse é o argumento da previsibilidade de custos em uma frase: uma resposta que você pode enviar livremente não pode ser rejeitada nem sobretaxada.

O que a montagem precisa	Um único webhook da Whapi.Cloud	ngrok + Business API oficial
Receber mensagens localmente	URL de webhook hospedada, sem túnel	Túnel ngrok que troca as URLs e cai
Configuração da conta	Leitura de QR code, ativo em ~2 minutos	Verificação de empresa da Meta, de dias a semanas
Enviar uma resposta	Texto livre, uma chamada REST	Modelo aprovado previamente, ~1 em cada 3 rejeitado
Prazo de resposta	Sem janela de atendimento de 24 horas	Texto livre só dentro de uma janela de 24 horas
Modelo de custo de envio	Assinatura, sem taxa de modelo por mensagem	Cobrança por modelo entregue desde julho de 2025

Retorne 200 rápido e rode o agente em segundo plano

Confirme o webhook com um HTTP 200 imediatamente e depois rode a lenta chamada ao LLM em uma tarefa em segundo plano. Uma resposta lenta nunca deve manter a conexão do webhook aberta.

Confirmação rápida com HTTP 200 e processamento do agente em segundo plano para um webhook do WhatsApp

Inscreva-se apenas no evento messages nas configurações do canal para que a sua rota não seja acordada por atualizações de status e confirmações de leitura. Cada payload de webhook recebido traz o número do remetente, o tipo da mensagem e o corpo do texto; ignore tudo em que from_me for verdadeiro para que o bot não responda às próprias mensagens.

Uma chamada ao LLM leva alguns segundos; a confirmação de um webhook deveria levar milissegundos. Se o seu handler espera o agente antes de retornar, a entrega pode estourar o tempo e a mesma mensagem é entregue de novo, então o usuário recebe a resposta duas vezes. O BackgroundTasks do FastAPI deixa você retornar na hora e processar depois.


# webhook_async.py -- fast 200, then reason and reply in the background
import os, requests
from fastapi import FastAPI, Request, BackgroundTasks

app = FastAPI()

def handle(sender: str, text: str):
    answer = reply_for(sender, text)  # the slow part: agent + LLM
    # POST https://gate.whapi.cloud/messages/text
    # If you block the webhook waiting for this, Whapi retries the
    # delivery and the contact gets the same answer twice.
    requests.post(
        "https://gate.whapi.cloud/messages/text",
        headers={"Authorization": f"Bearer {os.environ['WHAPI_TOKEN']}"},
        json={"to": sender, "body": answer},
        timeout=30,
    )

@app.post("/webhook")
async def webhook(request: Request, background: BackgroundTasks):
    data = await request.json()
    for msg in data.get("messages", []):
        if msg.get("from_me"):
            continue
        background.add_task(handle, msg["from"], msg.get("text", {}).get("body", ""))
    return {"status": "ok"}  # returned in milliseconds

A resposta volta por POST /messages/text com o número do remetente no campo to e a resposta do agente em body. Como a rota retorna antes de o agente terminar, as entregas continuam rápidas e os bugs de resposta duplicada somem. O padrão que mais encontramos em primeiras montagens quebradas é um handler síncrono que trava no modelo e, sem querer, ensina o gateway a tentar de novo.

Do protótipo à produção: troque o MemorySaver pelo Postgres

O MemorySaver lembra até o próximo reinício; um checkpointer no Postgres lembra entre publicações e quedas. A troca é de uma linha porque a regra do telefone como thread_id continua idêntica.

Publique o app FastAPI em qualquer host público para que a URL do webhook seja acessível, defina WHAPI_TOKEN e a chave do seu modelo como variáveis de ambiente e substitua o MemorySaver pelo PostgresSaver. O estado da conversa passa a sobreviver a reinícios, e os mesmos threads por usuário continuam funcionando sem nenhuma mudança no código do próprio agente.

Erros comuns de quem monta pela primeira vez (e a solução)

Dois erros derrubam quase toda primeira montagem: o wrapper errado da OpenAI e uma ferramenta definida como método de classe. Os dois falham na inicialização com mensagens confusas.

Se você passar o nome de um modelo de chat como gpt-4o para o antigo wrapper de completion, a OpenAI retorna This is a chat model and not supported in the v1/completions endpoint. A correção é usar ChatOpenAI, não a classe OpenAI no estilo completion.


# Wrong: completion wrapper rejects chat models
# from langchain_openai import OpenAI
# model = OpenAI(model="gpt-4o")  # -> v1/completions endpoint error

# Right: chat model wrapper
from langchain_openai import ChatOpenAI
model = ChatOpenAI(model="gpt-4o")

O segundo erro aparece quando você decora um método de instância com @tool. O LangChain lê self como um argumento obrigatório da ferramenta e a construção do agente falha. Defina as ferramentas como funções no nível do módulo e passe qualquer estado compartilhado por um closure ou por um cliente global.

Se você esbarrar em um comportamento inesperado no lado do WhatsApp, e não no seu Python, fale com a equipe de suporte da Whapi.Cloud pelo chat em whapi.cloud: a equipe ajuda ativamente os clientes a resolver problemas em produção. Não vamos cobrir aqui a transcrição de notas de voz nem a busca por vetores; ambas ficam em cima desse mesmo ciclo e merecem um guia próprio.

É essa a montagem inteira: um webhook da Whapi.Cloud recebe, um agente do LangGraph raciocina com memória indexada pelo número de telefone de cada pessoa e uma única chamada REST envia a resposta. Pular túneis, a verificação da Meta e a aprovação de modelos é o que a mantém tão curta. Equipes que automatizam o agendamento de consultas nesse ciclo relatam quedas de um quarto ou mais nas ausências, e é por isso que vale a pena acertar o padrão de memória por usuário. Conecte as três etapas como mostrado e o agente mantém uma conversa de verdade ao longo das mensagens.

Garanta seu sandbox grátis da Whapi.Cloud

Sobre o autor

Jason Mitchell

Product Owner na Whapi.Cloud

Construindo integrações de WhatsApp desde 2019. Sempre aberto a conexões — seja para discutir um caso de uso da API, compartilhar feedback ou simplesmente trocar ideias. Me encontre no LinkedIn.

O ciclo de três etapas que todo agente de WhatsApp executa
Conecte o número e aponte um webhook para o seu app
Crie o agente ReAct que escolhe ferramentas, age e depois ob...
Defina o thread_id como o número de telefone e cada usuário ...
Por que «usar o ngrok e a Business API» quebra primeiro
Retorne 200 rápido e rode o agente em segundo plano
Do protótipo à produção: troque o MemorySaver pelo Postgres
Erros comuns de quem monta pela primeira vez (e a solução)

Webhooks de chamadas do WhatsApp: init...

Assine calls.post, confirme em 2s e alimente o CRM com status em JSON flat. Cobr...

n8n vs Make vs Zapier WhatsApp API Automation Comparison

n8n vs Make vs Zapier: Qual é o Melhor...

Uma comparação detalhada de n8n, Make e Zapier para automação da API do WhatsApp...

Zero-Token WhatsApp AI Assistant Architecture

Como Criar um Assistente de IA Gratuit...

Saiba como criar um assistente de IA no WhatsApp com custo zero de tokens usando...

Programmatic WhatsApp Username Claim Hub

Não espere pelo lançamento: como regis...

O lançamento global de nomes de usuário da Meta introduz BSUIDs de 128 caractere...

Perguntas frequentes

Perguntas sobre o agente de WhatsApp com LangChain

Não. O ngrok só é necessário quando um túnel precisa expor uma máquina local. Com a Whapi.Cloud, você conecta um número por QR code e define uma URL de webhook hospedada nas configurações do canal, então as mensagens recebidas chegam por POST direto para o seu app FastAPI publicado. A etapa do túnel que a maioria dos tutoriais exige desaparece por completo.

Na Business API oficial, mensagens fora de uma janela de 24 horas precisam ser modelos aprovados previamente, e a Meta cobra por modelo entregue. Com a Whapi.Cloud, o agente envia uma resposta de texto livre por <code>POST /messages/text</code>, então não há etapa de aprovação de modelos nem taxa por modelo para administrar.

Publique o app FastAPI em um host público, defina o seu token e a chave do modelo como variáveis de ambiente e substitua o MemorySaver por um checkpointer no Postgres. A lógica do telefone como thread_id continua a mesma, mas o estado da conversa agora sobrevive a reinícios e publicações em vez de zerar na memória.

Conecte um checkpointer ao agente e passe um <code>thread_id</code> igual ao número de telefone do remetente em cada chamada de invoke. O LangGraph então guarda e restaura uma conversa separada por thread, então cada contato mantém o próprio contexto. Sem um checkpointer, todos os usuários compartilham um estado e as conversas se misturam.

O handler do webhook está travando na chamada ao LLM antes de retornar. Quando a resposta é lenta, a entrega estoura o tempo e a mensagem é reenviada, então o agente responde duas vezes. Retorne um HTTP 200 imediatamente e rode o agente em uma tarefa em segundo plano, e depois envie a resposta com uma chamada de API separada.

Você decorou um método de classe com <code>@tool</code>, então o LangChain lê <code>self</code> como um argumento obrigatório da ferramenta e a construção do agente falha. Defina cada ferramenta como uma função no nível do módulo e passe qualquer estado compartilhado por um closure ou por um cliente global em vez de <code>self</code>.

Veja o que Nossos Clientes Construíram
com Whapi.Cloud

"Cart reminders with a 5% follow-up coupon lifted our recovery rate from 4% to 11%. Customers reply directly in WhatsApp — our team closes the sale right there."

Abandoned Cart Recovery

Hans M., Germany

"Managing 40+ segment groups became trivial — auto welcome messages, pinned updates, inactive member cleanup. Lead gen from WhatsApp groups grew 3x in two months."

Automated Group Management at Scale

Carlos S., Brazil

"Guests receive door codes, WiFi credentials, and a local guide automatically on arrival. Checkout is confirmed via a photo on WhatsApp. Front desk load dropped 40% in the first month."

Contactless Hotel Operations

Ana M., Romania

"Our deals channel has 12,000 subscribers. Whapi.Cloud scrapes competitors, filters duplicates, and auto-posts the top 5 daily. Channel growth tripled after switching to automated posting."

Automated Deal Channel Publishing

Katrin S., Germany

"We verified 93,000 active WhatsApp numbers from 180,000 contacts in 48 hours. Campaign open rates improved significantly by stopping spend on inactive numbers."

Large-Scale Audience Filtering

Sergio N., Spain

"Patients book appointments and check lab results on WhatsApp. The bot handles 200+ daily queries without staff. Appointment no-shows dropped 30% after automated 24h reminders."

Healthcare Bot — Scheduling & Results

Dr. Fernanda O., Brazil

"Post-purchase WhatsApp messages with a tailored discount at day 14. Birthday coupons see 45% redemption — far above our email rate. Repeat purchases via WhatsApp: 18% of total revenue."

WhatsApp Retention Campaigns

Lukas W., Germany

"Customers get a WhatsApp tracking link the moment their parcel ships. Support tickets dropped 35% in 3 months — mostly 'where is my order?' queries simply disappeared."

Automated Shipping Notifications

Matei P., Romania

Desenvolvimento e gestão próprios

O que é Whapi.Cloud?

Whapi.Cloud é uma API intuitiva que conecta seu negócio ao WhatsApp de forma direta e sem complicações. Crie bots de suporte, agende compromissos, envie notificações, gerencie grupos e canais, automatize confirmações de pedidos e acompanhe tudo com webhooks. Foque no crescimento do seu negócio enquanto a API cuida da camada de mensagens.

Nosso serviço oferece controle total e gerenciamento de grupos, comunidades e canais do WhatsApp.

Adicione dinâmica e novos recursos: mídia, botões, reações, stories, pedidos e produtos. Tudo disponível para interação com seus clientes.

Nossa equipe responderá rapidamente e ajudará você com qualquer dúvida!

Explorar automação do WhatsApp Ver
demo

Como criar um agente de IA para WhatsApp com LangChain e Whapi.Cloud: tutorial em Python

O ciclo de três etapas que todo agente de WhatsApp executa

Conecte o número e aponte um webhook para o seu app

Crie o agente ReAct que escolhe ferramentas, age e depois observa

Defina o thread_id como o número de telefone e cada usuário mantém a própria memória

Por que «usar o ngrok e a Business API» quebra primeiro

Retorne 200 rápido e rode o agente em segundo plano

Do protótipo à produção: troque o MemorySaver pelo Postgres

Erros comuns de quem monta pela primeira vez (e a solução)

Sobre o autor

Jason Mitchell

contents

recent posts

Webhooks de chamadas do WhatsApp: init...

n8n vs Make vs Zapier: Qual é o Melhor...

Como Criar um Assistente de IA Gratuit...

Não espere pelo lançamento: como regis...

Perguntas sobre o agente de WhatsApp com LangChain

Veja o que Nossos Clientes Construíram
com Whapi.Cloud

Hans M., Germany

Carlos S., Brazil

Ana M., Romania

Katrin S., Germany

Sergio N., Spain

Dr. Fernanda O., Brazil

Lukas W., Germany

Matei P., Romania

O que é Whapi.Cloud?

Como criar um agente de IA para WhatsApp com LangChain e Whapi.Cloud: tutorial em Python

O ciclo de três etapas que todo agente de WhatsApp executa

Conecte o número e aponte um webhook para o seu app

Crie o agente ReAct que escolhe ferramentas, age e depois observa

Defina o thread_id como o número de telefone e cada usuário mantém a própria memória

Por que «usar o ngrok e a Business API» quebra primeiro

Retorne 200 rápido e rode o agente em segundo plano

Do protótipo à produção: troque o MemorySaver pelo Postgres

Erros comuns de quem monta pela primeira vez (e a solução)

Sobre o autor

Jason Mitchell

contents

recent posts

Webhooks de chamadas do WhatsApp: init...

n8n vs Make vs Zapier: Qual é o Melhor...

Como Criar um Assistente de IA Gratuit...

Não espere pelo lançamento: como regis...

Perguntas sobre o agente de WhatsApp com LangChain

Preciso do ngrok para criar um agente de IA para WhatsApp com LangChain?

Sou obrigado a usar modelos de mensagem para responder no WhatsApp?

Como levo o protótipo para produção?

Como funciona a memória por usuário em um bot de WhatsApp com LangGraph?

Por que o meu bot de WhatsApp responde duas vezes à mesma mensagem?

Por que o decorador @tool do LangChain lança um erro de «self» duplicado?

Veja o que Nossos Clientes Construíramcom Whapi.Cloud

Hans M., Germany

Carlos S., Brazil

Ana M., Romania

Katrin S., Germany

Sergio N., Spain

Dr. Fernanda O., Brazil

Lukas W., Germany

Matei P., Romania

O que é Whapi.Cloud?

Controle grupos e canais

Use mensagens interativas

Aproveite o suporte rápido ao vivo

Veja o que Nossos Clientes Construíram
com Whapi.Cloud