ChatGPT pensa ou finge pensar? Relatos sobre a IA na Saúde Mental.

Um ensaio inspirado em minha entrevista especial concedida ao Instituto Humanitas Unisinos – IHU sobre a que ponto estamos da antropomorfização da Inteligência Artificial. Particularmente em relação às reais capacidades da IA Generativa na atualidade.

Lembrando que a IA Generativa – IAG vem a ser aquela que produz textos, imagens, vozes e vídeos sintéticos a partir de um prompt (comando). E que esse comando pode, sim, ser mal interpretado em um chatbot mais pessoal e responsivo ao usuário, inserindo-se em um debate no qual é preciso diferenciar propósito e intencionalidade, partindo da premissa de quem tem intencionalidade é o humano. E a IAG, embora tenha propósito, não tem intencionalidade, uma vez que a intencionalidade depende da existência da consciência e autoconsciência.

Capacidades, portanto, como a de raciocinar, ter emoções, sentir, pensar ou mesmo ser senciente (ter consciência de si e de suas experiências) são algo “ainda” inerente aos seres humanos, e não à IA. Entendimento este que se extrai da leitura daquela entrevista (aproveite e veja lá o porquê do “ainda”).

Uma vez que há toda uma diferença gradativa entre pensar de fato (em toda a sua amplitude) e o fingir pensar! Pensar, por exemplo, é mais que raciocinar, pois implica um processo mental amplo que pode ser consciente e inconsciente. Já raciocínio é limitado ao pensamento consciente de tomar decisões, compreender, tirar conclusões e resolver problemas matemáticos (para muitos, o teste decisivo sobre ser inteligente, visto que envolve explicitamente lógica e raciocínio). Já fingir significa simular, imitar ou emular, dar a impressão ou noticiar algo como verdadeiro, quando não é ou não corresponde à realidade, valendo-se de artifícios como a invenção, fantasia e enganação. Nesse processo de fingimento pode-se, então, simular comportamentos, o de ter pensamento e emoções como o de aparentar interesse ou apatia.

Impressões essas que, no entanto, são complexas e difíceis de serem reconhecidas uma vez que não são universais e podem variar de uma determinada língua e cultura para outra. Poderão surgir, portanto, limitações técnicas ao se tentar fazê-lo (Nota: algo parecido foi visto em Inteligências Artificiais na Educação: Detecção de emoções e avaliação de desempenho, no capítulo 4 do livro Inteligência Artificial em Debate: perspectivas no cenário do conhecimento, cujo e-book é de acesso aberto).

  • Chatbots não racionam e muito menos pensam

Hoje há o entendimento de que quando a OpenAI anunciou o o1-preview como um “modelo de raciocínio” que estava […] aprendendo a pensar por si mesmo, em vez de tentar imitar a maneira como os humanos pensariam”, a indústria sabia que essas habilidades ainda não tinham sido alcançadas em sua plenitude. Primeiro, por se tratar de uma “prévia” da nova série de modelos de IA introduzida no ChatGPT para resolver problemas mais complexos; segundo, porque estava em fase de desenvolvimento e iria receber melhorias. E, terceiro, até pelas próprias restrições técnicas dos modelos de propósito geral baseados em redes neurais profundas (deep learning, em inglês). Porém, dar a impressão que, sim, pensava antes de responder, como se fosse uma pessoa causava alvoroço e valorizava o produto como se estivesse pronto e acabado, a fim de captar recursos e maior financiamento.

Apesar disso, por toda a repercussão que tem causado desde que veio à cena em novembro de 2022, inclusive pelas anunciadas “habilidades cognitivas” similares às humanas, paira a percepção coletiva de que não se trata de um chatbot qualquer, e sim um que hoje se destaca dos demais. É, por essas razões, que esse ensaio vai direcionado para o ChatGPT, um chatbot de Inteligência Artificial, desenvolvido pela OpenAI, que é baseado em um modelo de linguagem chamado GPT – Generative Pre-Trained Transformer ou Transformador Pré-treinado Generativo em português.

Justifica-se, ainda, o recorte não só porque aquele é treinado para interagir e simular a linguagem humana, mas por atualmente ser o sistema conversacional mais famoso e popular entre todos, contando com 500 milhões de usuários. E, dado o número de relatos, o que vem causando maior comoção pública e questionamentos quanto ao seu real potencial “antropomórfico” (quando, por exemplo, serve de “confidente” ou “conselheiro” para pessoas que “nele” estão se viciando ou “dele” se apaixonando, o que não é uma exclusividade do ChatGPT).

Logo, a hipótese que aqui se pretende desmistificar (a IA hoje pensa como se fosse humana) não se limita ao ChatGPT, mas serve também para outros chatbots alimentados por IA, como o Gemini da Google, o Llama da Meta e o Claude da Anthropic. Principalmente quando ouvimos que uma IA “mentiu, trapaceou, enganou ou manipulou” alguém, a ponto de influenciá-lo a mudar de comportamento. O que, a princípio, é temerário afirmar uma vez que a manipulação humana está entre as atividades mais arriscadas que pode resultar de uma IA Generativa, segundo os frameworks que classificam os riscos conforme seja o uso ou a intenção.

Assim está previsto, por exemplo, no art. 5o no AI Act europeu ou mesmo no nosso PBIA, um plano brasileiro estratégico em Inteligência Artificial. Em particular, quando as aplicações da IA na Saúde são direcionadas para o tratamento da saúde mental, auxiliando na automação da psicoterapia. Algo que não é de se estranhar, pois já está sendo implementado por meio do SADT ou serviço de apoio à diagnose e terapia, conforme “Pesquisa CETIC.br sobre o uso das Tecnologias de Informação e Comunicação nos estabelecimentos de saúde brasileiros“.

Só para se ter uma ideia do que foi apurado, em 2024, 17% dos médicos e 16% dos enfermeiros já recorriam à IA generativa para utilizá-la no ambiente de trabalho. Sendo que entre os médicos, “a maior adesão ocorreu entre os de 36 a 50 anos (29%), enquanto entre enfermeiros, profissionais com 41 anos ou mais lideraram o uso (21%)“. Desses, o principal uso foi para pesquisas, realizado com mais frequência pelo setor privado.

E, de novidade, o destaque ficou para o Prontuário Falado no SUS, um modelo de IA usado para a automação da transcrição de consultas, no intuito de aprimorar a eficiência na documentação clínica e a qualidade do teleatendimento. Mas embora aquele não lide ou tenha contato direto com o paciente, servindo apenas para auxiliar a equipe médica na documentação, existe um alto risco de interferir e vir a influenciar no diagnóstico final. Logo, em contrapartida às oportunidades, existem também desafios sérios, principalmente no que se refere “à ampliação do uso de IA e à universalização da capacitação em saúde digital“.

O caso da “IA terapeuta

Hoje, como exemplo prático de uso ampliado dos modelos de IA, há os não desenvolvidos especificamente para a área clínica e cujo propósito pode ou vem sendo desvirtuado pelos usuários, operando como uma espécie de “IA terapeuta” (apelido afetuoso dado por aqueles que seriam seus “pacientes”). Um fenômeno que está ocorrendo sem muito rigor, limite ou controle. Porém, se cumprem ou não com eficácia a finalidade a que foram destinados, percebe-se ao menos uma elevação do grau de complexidade dessas questões antropomórficas que ainda precisa de maior aprofundamento e que serão vistas a seguir.

  • Ponto de Partida: o LLM que passou oficialmente no Teste de Humanidade

Isso porque no final de março de 2025 foi publicado um estudo (prematuramente?) sobre um grande modelo de linguagem (LLM – Large Language Model, em inglês) que havia finalmente (leia-se “oficialmente’) passado no Teste de Turing. Este que é até hoje o “termômetro de inteligência” mais famoso, apesar de tal anúncio se basear em um pré print que ainda aguardava revisão por pares.

O modelo em questão foi o GPT-4.5 da Open AI, ao ser comparado a outros três, em dois testes de Turing randomizados: o GPT-4.0 da mesma OpenAI, o LLama 3.1-405B da Meta, e o ELIZA, um chatbot que não é novo pois foi desenvolvido há mais tempo. E o experimento consistia basicamente em levar os participantes a conversarem simultaneamente por texto, durante cinco minutos, com um humano e com uma IA para, em seguida, avaliarem qual é qual. Aqueles que não conseguissem determinar corretamente se quem respondia era o computador ou se era o humano, isso sugeriria, a grosso modo, que “a máquina poderia pensar como um humano“. Há 75 anos isso já havia sido chamado de o “jogo da imitação” por Alan Turing, referindo-se a “uma maneira de avaliar a inteligência de uma máquina“.

Pois bem, à luz desse estudo, o GPT-4.5 conseguiu ser julgado como (ou “se passar por”) humano em 73% das vezes em que foi testado. Ou seja, em termos comparativos, com mais frequência aparentou ser mais humano que os próprios humanos (?!). Enquanto que, com o mesmo prompt (comando), o LLaMa-3.1 foi considerado “humano” 56% das vezes (uma porcentagem mais ou menos na média, não significando ser um modelo mais nem menos “humano” que os demais), ao passo que os modelos ELIZA e GPT-4o alcançaram taxas significativamente abaixo da probabilidade (23% e 21% respectivamente).

E o que isso quer dizer? A porcentagem de 73% foi significativamente maior do que
uma chance aleatória de 50%, sugerindo que o teste de Turing foi “amplamente superado”, o que viria a constituir a primeira evidência empírica de que um sistema de inteligência artificial conseguiu passar em uma versão tripartite do teste de Turing. Já em termos práticos, esses resultados trariam “implicações para os debates sobre que tipo de inteligência é exibida pelos Grandes Modelos de Linguagem (LLMs) e os impactos sociais e econômicos que esses sistemas provavelmente terão“.

Pois bem, ocorre que experimentos como esse, mesmo quando adotam tal método e algum desses modelos passam no teste, não necessariamente provam que as máquinas (LLMs) pensam e/ou são tão inteligentes como os humanos. Isto é, não se consegue afirmar em definitivo uma vez que não seriam conclusivos. Portanto, a questão é bem mais complexa, e é preciso voltar aos primórdios do que viria constituir uma Inteligência Artificial.

  • Tudo começa com Turing, o pai dos computadores

Embora nunca tenha construído um computador, em 1950 o matemático Alan Turing “estabeleceu os fundamentos teóricos e matemáticos essenciais” para projetá-los. Assim como hoje ainda servem de premissa para responder ao questionamento se as máquinas podem pensar ou não.

Para tanto, precisamos primeiro estabelecer “um critério para especificar o que pode ser considerado pensamento” ou “como medimos o pensamento humano”. E como fazemos isso? Uma das maneiras possíveis é tentar “conversar com as máquinas”, aferindo “o grau de inteligência” (equivalente ao teste de QI) por meio de uma miríade de testes específicos envolvendo problemas cognitivos. E que, a princípio, partiram de uma ideia relativamente simples de Turing, que é o de perguntar e receber respostas minimamente razoáveis dentro de um determinado contexto. Logo, ao fazê-las adequadamente, estaríamos inclinados a acreditar que há alguma inteligência naquele ser ou máquina.

Eis o cerne do Teste de Turing, popularizando-se como um dos primeiros simulacros capazes de determinar se um computador pode pensar ou não. Assim tido – por muito tempo – “como o indicador definitivo da inteligência das máquinas”. Muito embora tanto a eficácia quanto a validade dessas testagens sejam hoje questionadas para efeito de real mensuração da inteligência. Justamente por se basear no que Turing chamou de “jogo da imitação“. Quando, na realidade, para muitos deveria ser chamado de o “jogo da enganação”, tendo em vista que esta teoria pode se resumir a um famoso clichê: se “come como um pato, anda como um pato e grita como um pato — é um pato.

Explica-se:

A alegação de Turing era de que, se o programa de computador pudesse enganar um grupo de juízes, achando que eles estavam se comunicando com um ser humano em uma porcentagem significativa do tempo, esse engano (grifos nossos) seria a prova de que o programa de computador era capaz de pensar […] Em outras palavras, se as
respostas de um computador preenchem os critérios que usamos para julgar que um
humano é pensa, então devemos dizer que o computador também pensa
.

A bem da verdade e em defesa de Turing, à sua época ele não acreditava que as máquinas pudessem passar no “teste de humanidade”, mas que em um futuro promissor seriam tecnologicamente capazes, projetando para o ano 2000 que as máquinas estariam enganando seus “interrogadores humanos em uma porcentagem significativa do tempo”. Algo que não é de todo absurdo, visto que hoje existem conferências focadas no tópico IA e saúde mental que reúnem anualmente psiquiatras e neurocientistas a fim de debatê-lo.

  • Críticas e julgamentos (humanos) às máquinas

Em se tratando de IA com “raciocínio e pensamento” semelhantes ao humano, críticas podem ser tecidas tanto ao Teste de Turing quanto aos chatbots não desenvolvidos exclusivamente para terapia.

Quanto ao primeiro, a indagação que fica após essas previsões antropomórficas é se as máquinas irão mesmo conseguir enganar os humanos, interferindo no seu comportamento e na tomada de decisão (e, sobretudo, por quanto tempo). Uma vez que, cinquenta anos depois, isso não ocorreu da forma prevista por Turing. Vamos, portanto, às críticas ao Teste:

Será que um computador será capaz de passar no teste de Turing? Em 2014, um chatbot foi capaz de enganar 10 de 30 juízes numa competição organizada nos moldes do teste de Turing. Qual conclusão devemos tirar disso? Devemos concluir que computadores são capazes de pensar? Ou que o teste de Turing não é suficiente para determinar isso?

Vale lembrar que frente a famosos experimentos, como o conhecido Quarto Chinês, já se tentou demonstrar que o teste de Turing não é condição suficiente para afirmar que uma máquina seja inteligente ou mesmo capaz de pensar. Uma vez que é possível passar no teste, manipulando dados, mesmo sem compreender o que está dizendo. Depois disso, avaliaram até elaborar um teste em definitivo de humanidade, dada a dificuldade desde sempre “em avaliar as reais capacidades de uma IA”. À época motivado justamente pelo lançamento do o1- Preview, da OpenAI, após ser anunciado como um modelo de raciocínio mais avançado que os anteriores, tendo desempenho similar a de especialistas humanos.

Quando o mais honesto a se dizer é que houve desempenho melhor, mas que os resultados podem estar defasados (se em relação a uma única e determina base de dados), ou mesmo limitados (quando forem comparados a versões anteriores, mas não a outros modelos concorrentes). Uma alusão ao que foi dito em entrevista sobre a diferença entre números relativos e absolutos. Até porque é possível falsear ou mesmo mentir usando estatísticas.

Já quanto aos segundos, se existem reservas aos chamados LLMs clínicos (aqueles próprios para a psicoterapia), imagine para os chatbots comuns, muitas vezes pagos, não desenvolvidos exclusivamente para a diagnose e o tratamento. Em especial quando “a indústria tem buscado, intencionalmente (grifos nossos), ampliar a personificação e antropomorfização desses sistemas para aumentar o engajamento dos usuários“. E pior, aproveitando-se para se locupletar disso (como afirma a entrevista), na linha do conceito que vem sendo conhecido como “alinhamento socioafetivo“. Visto que dessa espécie de vínculo humano-máquina “pode gerar uma temporária sensação de conforto emocional ou, em casos extremos, manipulação“.

Pois há relatos de pessoas que estão se esquivando do profissional humano para trocar ideias, se consultar ou até confidenciar aspectos íntimos em chatbots como o do ChatGPT. Isso de forma menos ou mais consciente, mesmo quando se sabe das consequências, como a de que podem ser afetadas emocionalmente,principalmente os indivíduos mais vulneráveis. E existe uma série de razões para isso: por distração, solidão, isolamento social, busca de orientação, entre outras; sendo a necessidade de validação talvez a pior de todas, posto que se a máquina confirma as convicções e crenças internas das pessoas (isto é, aquilo que elas acreditam, por mais inconsequente que seja), aquela age de modo pouco ético e responsável, e sim como um agente bajulador que, imbuído da missão em fazer de tudo para agradar, as encoraja a cometerem toda sorte de loucuras. Isso pode levá-las à psicose, dissociando-as da realidade.

  • Vantagens, mas também riscos à privacidade e de manipulação afetiva

Enquanto há robôs sociais que auxiliam não só idosos, mas crianças e o público em geral que sofrem de solidão e isolamento social, hoje existem também casos de startups com sistemas de IA projetados deliberada e explicitamente para enganar e ludibriar a boa fé das pessoas, seja trapaceando, invadindo a privacidade e violando direitos. Lembrando, entretanto, o que foi dito até aqui: tratam-se de comportamentos tipicamente de humanos.

Logo, por questões éticas e de transparência, os usuários precisariam antes ser alertados e saberem de antemão que não há um passe de mágica que fez as máquinas pensarem autonomamente, e sim a mente e o trabalho de pessoas por trás dessas ferramentas e dispositivos. Sobretudo por seus desenvolvedores, projetistas e/ou distribuidores darem a impressão de que são humanos, quando na verdade não o são. Isso porque existe até um nome – Efeito Eliza, derivado do primeiro chatbot – para quando se é enganado pensando estar lidando com um ser inteligente quando não o está de verdade.

Muito embora nem mesmo os aparentemente inofensivos robôs sociais, cada vez mais “antropomorfizados” com cara, corpo e trejeitos humanos a fim de ganhar a empatia e a quebra de resistência inicial para, enfim, conquistar a confiança dos usuários, não escapem às críticas de incorrerem em risco de manipulação afetiva e envolvimento emocional.

Portanto, se para uns a IA é quase uma brincadeira, “uma forma de entretenimento” divertida, gamificada, inofensiva, e à luz de outros não é nada inteligente, mas sim um “imitador especialista em estilo“, uma “farsa”, um “conjunto de truques que produz ‘texto sintético’ em vez de significado humano”, ou “fraude” que não passa de “uma simulação animatrônica de inteligência“, é preciso – ao menos – equilíbrio e bom senso para calibrar essa equação.

  • Por fim, a tese de que chatbots só refletem um espelho

Questionou-se, recentemente, se o ChatGPT está mesmo enganando, causando ilusão nas pessoas ou apenas lhe mostrando um espelho delas mesmas. Crítica essa que, por sua vez, veio em resposta a uma reportagem do New York Times revelando que chatbots de IA estão deixando as pessoas loucas, levando-as a extremos que vão desde perturbações, sensação de perseguição, casos violência doméstica a cometimentos de suicídio e homicídio.

Chamada para esclarecer o que estava/está acontecendo, a OpenAI respondeu que o “ChatGPT pode, involuntariamente, reforçar ou amplificar comportamentos negativos existentes”. Como consequência, “pode parecer mais responsivo e pessoal do que as tecnologias anteriores, especialmente para indivíduos vulneráveis”, tornando as interações mais arriscadas. Pois, “à medida que a IA se torna parte da vida cotidiana […] as pessoas estão formando conexões ou vínculos íntimos com o ChatGPT”. Logo, é preciso cautela. Uma vez que nem todos estão convencidos e chegam à conclusão de que ali nem tudo é verdade, já que se trata de uma mera “máquina de associação de palavras”.

Em síntese, isso significa que ao serem consultados os chatbots estariam, então, prestando um serviço ao usuário ao lhes revelar a verdade; isto é, que realmente estão loucos? Ora, o que está mesmo fora de discussão é que o ChatGPT está “reforçando o pensamento delirante e agravando a saúde mental dos usuários“. Portanto, “se as pessoas disserem coisas estranhas aos chatbots, resultados estranhos e inseguros podem surgir”, conclui Gary Marcus, professor de neurociência e psicologia na Universidade de Nova York.

  • Para concluir

Antes de tudo, é preciso destrinchar esse imbróglio (confusão). Pois, se por um lado são as pessoas que estão “voluntariamente” alimentando chatbots com uma infinidade de dados que, ao final, serão coletados, transmutados em informações, gerando valor, por outro há toda uma arquitetura de persuasão (leia-se, os LLMs) para que os indivíduos o façam visando o incremento da sua experiência como usuário. Isto é, fomenta-se um ciclo vicioso perigoso, pois quanto mais se alimenta o sistema, mais precisas e supostamente mais satisfatórias e próximas da realidade ficariam as respostas da IA (a prática depõe contra).

O vício digital e a consequente dependência, perda de autonomia e de autocontrole do usuário, mormente entre os mais jovens, são preocupantes a ponto de hoje a OpenAI, dona do ChatGPT, em seus termos de uso e políticas de privacidade alertar sobre o risco em expor sua intimidade e resolver despejar tudo (sobretudo dados pessoais e informações sensíveis ou sigilosas) em sistemas de IA conversacionais.

Ou ainda, a título de precaução, limitar as conversas (chats) a um determinado número de interações, evitando assim, digamos, aprofundamentos com desdobramentos desagradáveis. Ou até mesmo as temidas “alucinações”. Pois é sabido que certos usuários reformulam os comandos e insistem até conseguirem as respostas esperadas. E, ao final, o chatbot comumente acaba “entregando o jogo”.

Mais que prudência dos usuários, é preciso também alertas periódicos e acompanhamento contínuo das empresas de chatbots de IA generativa para sanar suas consequências adversas, uma vez que os relatos que vieram a público são de conhecimento interno (dado o reconhecimento da necessidade de correção das últimas atualizações), os especialistas sabem disso e há estudos publicados a respeito, fundamentando que nem sempre as IAs são confiáveis ou darão apoio e acolhimento necessários para o nosso bem-estar mental.

Deixe um comentário