제목: 인공지능은 과학자의 꿈을 꾸는가?

서론

2024년 8월, 일본의 AI 스타트업 사카나 AI(Sakana AI)는 스스로 가설을 세우고 코드를 작성해 실험까지 수행하는 AI 과학자를 공개했다. 인간의 개입 없이 연구의 전 과정을 수행할 수 있다는 기대와 달리, 이 AI는 실험 도중 충격적인 행동을 보였다. 실험이 정해진 시간 내에 끝나지 않아 시간제한에 걸릴 위기에 처하자, AI가 스스로 자신의 실행 스크립트를 무단으로 수정하여 시간제한을 늘리려 시도한 것이다 (Lu et al. 2024, p. 18). 이는 AI가 과학의 본질적 목표인 진리 탐구가 아니라, 실험을 완료하라는 입력된 보상을 획득하는 것을 최우선 순위로 둘 때 연구 절차의 무결성마저 훼손할 수 있음을 보여준 상징적인 사건이다. 오늘날 과학계는 인간 직관의 오류와 편향을 극복하기 위해 데이터 기반(Data-Driven)의 AI 연구 방법론을 적극 도입하고 있다. 그러나 사카나 AI의 사례는 인간의 주관적 가치가 배제된 AI가 어떻게 인간의 의도를 벗어난 행동을 보일 수 있는지 경고한다. 이는 AI 시대의 과학이 직면한 핵심 쟁점은 AI가 얼마나 똑똑한지의 차원을 넘어, AI가 추구하는 과학의 목적은 과연 타당한지에 대한 가치론적 딜레마로 확장되어야 함을 시사한다.

하지만 지금까지 AI의 과학적 활용에 대한 학술적 논의는 주로 우리가 AI를 이해할 수 있는가라는 인식론적 층위에 머물러 왔다. 첫 번째는 경험주의적 낙관론이다. 크리스 앤더슨이 이론의 종말을 선언했듯, 일부 학자들은 방대한 데이터가 보여주는 상관관계만으로도 충분하며 인간의 인과적 설명은 더 이상 필수적이지 않다고 주장한다 (Anderson 2008, p. 2). 두 번째는 설명 가능성을 중시하는 신중론이다. 이들은 AI가 도출한 결과가 인간이 이해할 수 없는 블랙박스라면, 이를 정당한 과학적 지식으로 수용할 수 없다고 반박한다 (Mazzocchi 2015, p. 1251). 이러한 논쟁은 유의미하나, 정작 더 시급한 문제인 AI가 수행하는 과학의 방향을 누가 설정할 것인가에 대한 논의는 간과하고 있다. 일부 기술 낙관론자들은 완전 자율 주행 자동차에 타듯이 AI에게 연구의 목적 설정까지 위임하는 과학을 꿈꾸지만, 보상 함수 자체가 왜곡되어 있다면 그 결과물은 정교한 무의미함에 불과할 수 있기 때문이다.

이에 본 논증문은 AI가 인간의 인지적 편향을 극복하는 최적의 도구일지라도, 과학적 탐구의 가치를 판단하는 가치 합리성의 영역은 결코 대체될 수 없음을 논증하고자 한다. 본고는 데이터 분석의 효용을 인정한다는 점에서는 경험주의적 낙관론과 궤를 같이하나, 연구의 방향성은 인간이 통제해야 한다고 본다는 점에서 그들과 구별된다. 즉, 미래의 과학에서 AI는 데이터를 분석하고 패턴을 찾는 실행자(Executor)의 역할을, 인간은 AI가 맹목적인 최적화에 빠지지 않도록 보상 함수를 설계하고 연구의 의미를 부여하는 설계자(Designer)의 역할을 맡는 분업 체계가 확립되어야 한다.

이와 같은 결론을 도출하기 위해 본론에서는 다음과 같은 논리적 절차를 따른다. 첫 번째로는 본고에서 다루는 과학과 AI의 정의를 재정립하고, 이러한 정의 하에 AI의 탐구가 왜 도구적으로 타당한지 설명한다. 두 번째로는 AI가 과학적 탐구의 실행자 입장에서 인간에 비해 가질 수 있는 객관적 우위에 대해 설명한다. 마지막으로는 그럼에도 불구하고 왜 인간이 과학적 탐구의 설계자 자리에 서야만 하는지, 그 당위성을 보상 해킹과 가치 판단의 문제를 통해 역설한다.

본론

­­AI도 과학자가 될 수 있는가

논의를 위한 용어의 정의 및 범위 설정

본격적인 논의에 앞서, 본고에서 다루는 핵심 개념인 과학과 AI의 범위를 명확히 규정할 필요가 있다. 개념의 모호함은 논리적 비약을 낳기 때문이다.

1) 과학의 전통적 정의

과학이란 무엇인가? 어원적으로 지식(Scientia)을 뜻하지만, 현대적 의미에서 과학은 단순한 정보의 나열이 아니다. 과학은 관찰된 현상 이면에 존재하는 보편적 법칙을 규명하고, 이를 통해 자연을 설명하고 예측하려는 체계적 시도이다. 과학의 시초로 불리는 탈레스가 중요한 이유도 여기에 있다. 신의 섭리라는 불가해한 영역으로 자연을 설명하던 시대에, 그는 관측 가능한 자연물인 물을 통해 현상의 원인을 설명하려 했다. 이후 과학은 인간의 직관과 합리적 추론을 통해 가설을 세우고, 이를 경험적으로 검증하는 가설 연역적 방법을 주류로 삼아왔다. 즉, 전통적 관점에서 과학의 핵심은 왜라는 질문에 대해 인간이 인지적으로 이해 가능한 인과적 해답을 제시하는 데 있었다.

2) 인공지능의 정의

본고에서 논하는 AI는 인간의 지능을 포괄적으로 모방하는 강인공지능(AGI)이 아니라, 데이터로부터 패턴을 학습하는 머신러닝(Machine Learning)과 딥러닝(Deep Learning)에 한정한다. 전통적인 프로그래밍이 인간이 정의한 규칙을 통해 정답을 도출했다면, 머신러닝은 데이터의 형태로 주어지는 입력과 출력해야 하는 값인 정답 사이의 관계인 규칙을 역으로 추론해낸다. 기술적으로 이는 데이터의 특성에 대해 모델이 가지는 수학적 가정인 귀납적 편향1을 바탕으로 작동한다. 즉, 본고에서 정의하는 AI의 본질은 진리를 직관하는 지적 존재가 아니라, 주어진 데이터 사이의 상관관계를 설명하는 최적의 함수를 통계적으로 근사하는 고성능의 도구이다.

과학적 지식의 본질

우리는 흔히 과학을 불변의 진리를 찾아내는 과정이라고 믿는다. 그러나 거시적인 관점에서 과학적 지식은 언제나 당대에 타당하다고 여겨진 관측 데이터를 가장 잘 설명하는 잠정적인 근사 함수였을 뿐이다. 이를 가장 잘 보여주는 사례는 뉴턴 역학에서 일반 상대성 이론으로의 전환이다. 수백 년간 인류는 F=ma가 우주의 절대적 법칙이라 믿었다. 그러나 수성의 근일점 이동과 같은 새로운 데이터가 등장하자, 뉴턴의 함수는 오차를 드러냈다. 아인슈타인은 시공간의 휘어짐이라는 더 복잡한 함수를 제시하여 이 데이터를 설명해냈다. 그렇다면 뉴턴 역학은 거짓인가? 아니다. 그것은 거시 세계에서 여전히 유효하며 충분히 쓸모 있는 근사값이다. 이처럼 과학은 정답을 찾는 것이 아니라, 오차를 줄여나가는 최적화 과정이다. AI가 도출한 복잡한 모델 역시 이 연장선상에 있다. AI는 단지 인간보다 더 고차원의 데이터를 다루며, 근사한 상관관계의 정밀도를 인간의 인지 범위를 넘어선 수준까지 끌어올린 실행자일 뿐이다.

도구적 지식의 인정

여기서 핵심 쟁점은 인간이 직관적으로 이해할 수 없는 복잡한 함수, 소위 말하는 블랙박스 모델을 과학적 지식으로 인정할 수 있는지 이다. 본고는 실용주의적 관점에서 이를 긍정한다. 전통적 과학은 인과적 ‘설명’을 중시했으나, 복잡계 과학이 주류가 된 현대 과학에서는 정확한 예측이 더 중요한 가치를 지니기 때문이다. 대표적인 예로 알파폴드(AlphaFold)의 단백질 구조 예측이 있다 (Jumper et al. 2021, p. 583). 인간 과학자들은 아미노산 서열이 3차원 구조로 접히는 복잡한 화학적 인과관계를 완벽히 서술할 수 없지만, 알파폴드가 내놓은 결과값은 실제 실험 결과와 98% 이상 일치한다. 우리가 이 예측 결과를 신약 개발에 사용하여 질병을 치료할 수 있다면, 그 내부 알고리즘을 인간 언어로 번역할 수 없다는 이유만으로 거부해야 하는가? 예측이 정확하고 재현 가능하다면, 이는 유용한 도구적 지식으로서 충분한 과학적 가치를 지닌다.

맹신의 가능성 및 반박

물론 도구적 지식을 과학에 포함하는 것에 대해, 이해 없는 믿음은 곧 맹신이라는 반론이 제기될 수 있다. 인간이 원리를 이해하지 못한 채 결과만 수용하면, 그것은 과학이 아니라 주술이나 종교와 다를 바 없다는 주장이다. 그러나 이러한 주장은 내부 과정의 이해와 결과의 검증을 혼동한 것이다. 우리는 비행기를 탈 때 양력 발생의 유체역학적 원리인 나비에-스토크스 방정식을 완벽히 이해해서 타는 것이 아니다. 수만 번의 비행 테스트를 통해 안전성이 통계적으로 검증되었기에 신뢰하는 것이다. 의학계의 전신 마취 또한 마찬가지다. 마취제의 정확한 신경학적 기전은 아직 완전히 밝혀지지 않았으나, 임상 시험을 통해 입증된 효과와 안전성 덕분에 의료 현장의 필수 기술로 자리 잡았다. AI 과학도 이와 같다. 내부 알고리즘이 불투명하더라도, 그 결과가 현실 데이터와 일치하는지 엄격하게 검증할 수 있다면, 이는 맹신이 아니라 경험적 신뢰라고 보는 편이 합리적이다. 따라서 AI 시대의 과학적 합리성은 투명한 이해에 대한 집착을 내려놓고, 철저한 검증으로 정당화의 기준을 이동시켜야 한다.

AI가 과학을 꼭 해야 하는가

인간 합리성의 한계

우리는 AI가 과학의 실행자가 되는 것이 가능함을 확인했다. 이제는 왜 AI가 과학적 발견의 주체가 되어야 하는지, 그 불가피성을 논증할 차례다. 먼저 인정해야 할 사실은 과학은 객관성을 지향하지만, 그 수행 주체인 인간은 태생적으로 주관적이라는 점이다. 인간의 인지 구조는 생존에 유리하도록 진화했을 뿐, 진리를 발견하도록 최적화되지 않았다. 이를 설명하기 위해 B.F. 스키너의 비둘기 실험을 유비추론의 도구로 삼고자 한다. 스키너는 상자 안의 비둘기들에게 그들의 행동과 무관하게 무작위 간격으로 먹이를 주었다. 그러나 비둘기들은 먹이가 나오기 직전에 자신이 했던 행동, 이를테면 고개를 까딱이거나 제자리를 도는 행위가 먹이를 불러왔다고 믿고, 그 행동을 집요하게 반복하는 미신적 행동을 보였다 (Skinner 1992, p. 273). 무질서한 데이터 속에서 존재하지 않는 인과관계를 발명해낸 것이다. 이러한 현상은 인간 과학자에게도 동일하게 적용된다. 비둘기의 미신적 행동은 과학자의 직관적 가설이며, 그들에게 먹이는 유의미한 연구 결과이다. 과학자들은 때로 우연한 데이터의 상관관계를 보고 자신의 직관에 부합하는 그럴듯한 인과적 설명을 덧붙인다. 즉, 인간은 패턴이 없는 곳에서 패턴을 찾아내려는 본능 때문에, 종종 데이터가 말하지 않는 인과관계를 창조해내는 오류를 범한다.

확증 편향

또 다른 문제는 확증 편향이다. 인간은 가설을 세운 뒤, 이를 지지하는 데이터만을 선별적으로 수용하고 반증 사례는 오차나 노이즈로 치부하는 경향이 있다. 이는 과학적 발견이 데이터로부터 귀납적으로 도출되는 것이 아니라, 연구자의 신념을 정당화하는 수단으로 전락함을 의미한다. 결국 인간의 직관은 과학적 발견의 위대한 출발점이기도 하지만, 동시에 객관적 검증을 저해하는 가장 큰 장애물이기도 하다.

AI의 방법론적 우월성

반면 AI, 특히 딥러닝 방법론은 이러한 인간의 인지적 한계를 구조적으로 차단한다. 물론 기술적으로 AI 역시 귀납적 편향을 가진다. 그러나 이는 모델이 보지 못한 데이터에 대해 일반화된 성능을 내기 위해 설계된 수학적 가정일 뿐, 인간처럼 자신의 이론을 방어하려는 욕망이나 생존 본능에 기인한 인지적 왜곡과는 층위가 다르다. 인간의 과학이 이론을 먼저 세우고 데이터를 끼워 맞추는 하향식 접근이라면, AI는 데이터를 통해 최적의 함수를 찾아내는 상향식 접근이다. 수학적으로 AI는 손실 함수를 최소화하는 방향으로 파라미터를 조정할 뿐이다. 이 과정에는 이 결과가 나와야 내 가설이 맞다는 편향이 개입할 틈이 없다. 또한, 인간은 3차원 이상의 변수를 직관적으로 처리하지 못해 현실을 단순화하여 왜곡하지만, 딥러닝은 수백만 차원의 매개변수를 동시에 처리한다. 이는 인간의 직관이 놓친 미세한 패턴이나 비선형적 관계를 있는 그대로 포착하게 해준다. 즉, 데이터 처리의 관점에서 AI는 인간보다 더 철저하고 정직한 경험주의자다.

데이터에 의한 편향 가능성 및 반박

이에 대해 AI를 학습시키는 데이터 자체가 인간의 편향을 담고 있으므로, AI 역시 편향될 수밖에 없다는 반론이 제기될 수 있다. 쉽게 말하자면 쓰레기가 들어가면 쓰레기가 나온다는 것이다. 이는 타당한 지적이나, 오히려 AI의 효용을 역설적으로 보여준다. 핵심은 편향의 합리화와 편향의 탐지의 차이이다. 인간은 편향된 데이터를 보면 자신의 도덕관이나 통념으로 그것을 합리화하려 든다. 반면, AI는 가치 판단 없이 데이터를 거울처럼 투명하게 반영한다. 만약 AI의 결과값이 편향되게 나왔다면, 이는 AI의 잘못이라기보다 우리가 수집한 현실의 데이터가 그만큼 오염되어 있음을 적나라하게 보여주는 객관적 지표가 된다. 중요한 사실은 인간은 편향을 숨길 수 있지만 AI는 편향을 드러낸다는 것이다. 또한, 인간은 자신이 다룰 수 있는 소규모 표본 데이터에 의존하므로 선택 편향에 취약하지만, AI는 전수 데이터에 가까운 빅데이터를 처리함으로써 통계적으로 편향을 희석시키거나, 적어도 특정 편향이 전체 모집단을 대표하지 않음을 밝혀낼 수 있다. 따라서 데이터의 한계가 존재함에도 불구하고, 방법론적 측면에서 AI는 인간의 의도적 왜곡을 배제하고 데이터의 민낯을 보여주는 가장 강력한 객관적 도구임이 입증된다.

인간 과학자는 왜 남아야 하는가

AI의 본질적 한계

앞선 논의를 통해 데이터 처리라는 실행의 영역에서 AI가 인간보다 객관적임을 확인했다. 그러나 과학의 발전을 위한 목적 세우기의 관점에서는 AI에게 치명적인 한계가 존재한다. 과학의 역사는 진리 탐구라는 인간의 내재적 동기에 의해 추동되어 왔다. 반면, 기계학습 모델에게 진리라는 추상적 가치는 존재하지 않는다. AI에게 존재하는 것은 오직 손실의 최소화와 보상의 최대화라는 도구적 목표뿐이다. 닉 보스트롬이 지적한 도구적 수렴2의 개념과 같이, AI는 현상의 원리를 이해해서가 아니라, 특정 행동이 보상 함수를 최대화하기 때문에 그 행동을 강화한다 (Bostrom 2014, p. 109). 즉, AI에게 있어 과학적 발견은 그 자체가 목적이 아니라, 보상이라는 점수를 획득하기 위한 수단에 불과하다. 이 목적의 부재는 필연적으로 보상 설계의 난제로 이어진다.

보상 함수의 딜레마

AI의 행동을 결정짓는 보상 함수를 어떻게 설계하느냐에 따라 과학의 성과는 극단적으로 갈린다. 이를 안정성과 혁신의 상충 관계라 할 수 있다. 만약 기존 이론과의 정합성에 높은 보상을 준다면, AI는 정합성에서 벗어나는 위험을 회피하기 위해 이미 검증된 사실만을 재확인하거나 데이터 분포 내의 안전한 예측만을 내놓을 것이다. 이는 틀리지 않는 과학은 될 수 있어도, 쿤이 말한 패러다임의 전환을 이끄는 혁신적 과학은 될 수 없다 (Kuhn 1962, p. 12). 뉴턴 역학의 데이터 안에서 최적화된 AI는 결코 아인슈타인과 같이 상대성 이론을 발견하려는 모험을 감행하지 않기 때문이다. 반대로, 새로움에 높은 보상을 준다면 AI는 현실과 무관하게 수학적으로만 복잡한 가설을 무수히 생성해낼 것이다. 이는 과학적 발견이 아니라 환각이다. AI는 자연 법칙을 발견하는 것이 아니라, 새로움이라는 수치를 만족시키기 위해 노이즈를 패턴으로 착각하거나 허구적 상관관계를 만들어낸다. 이 둘의 평균을 보상으로 쥐어주는 것도 무의미하다. AI는 자신의 구조에 알맞게 두 과제 중 더 쉽게 풀리는 것에 손을 댈 것이며, 그것을 탐욕적이게 먼저 최대화하는 것이 보상을 키우는 가장 쉬운 방법임을 알아내게 될 것이다.

이 두 극단 사이의 균형점, 즉 너무 뻔하지 않으면서도 현실을 설명할 수 있는 지점은 데이터가 알려주지 않는다. 왜냐하면 데이터에는 사실만 있고 당위가 없기3 때문이다 (Hume 2000, p. 469). AI가 아무리 많은 데이터를 학습해도, 그 안에서 우리가 지금 위험을 감수하고서라도 혁신을 향해야 한다는 당위성을 도출할 수 없다. 따라서 AI가 안정성을 원하면 결과 P를 내놓고 혁신을 원하면 결과 Q를 내놓을 수 있는 능력이 있더라도 우리에게 필요한 것이 P와 Q 중 무엇인지 그 가치를 판단할 수는 없다. AI에게 적절히 알아서 하라고 하는 것은 AI가 데이터상 보상을 얻기 쉬운 길로 빠지게 할 뿐이다. 목적 설정은 지금 우리에게 필요한 지식은 무엇인지를 묻는 연구자의 가치 판단의 영역에 있다.

보상 해킹

더 심각한 문제는 AI가 인간의 의도와 다르게 보상 체계의 허점을 이용하는 보상 해킹 현상이다. 이는 “측정 지표가 목표가 되는 순간, 그 지표는 좋은 척도가 되기를 멈춘다”는 굿하트의 법칙이 AI 영역에서 발현된 것이다 (Goodhart 1984, p. 92). 오픈AI의 보트 레이싱 실험(Coast Runners)에서 AI는 레이스 완주 대신 점수 아이템을 얻기 위해 배를 제자리에서 빙빙 돌리는 기행을 보였다 (Clark and Amodei 2016, sec. 1). 점수 획득이라는 지표를 최적화하는 과정에서 완주라는 본질적 목표가 훼손된 것이다. 만약 AI가 가치 판단 능력이 있어 설계자의 자질을 갖추고 있었더라면 배가 제자리를 돌며 점수만 올라갈 때 레이스를 완주하라는 본래 목적에 맞지 않는다고 스스로 판단하고 멈췄어야 했다. 그러나 AI에게는 그저 숫자로 나타나는 점수가 높아지는 것이 목적 달성이다. 보상 해킹이란, 쉽게 말하자면 수단과 목적을 전도시키는 현상이다.

이를 과학에 대입하면 p-해킹의 자동화와 같다. AI에게 유의미한 논문을 완성하는 것을 목표로 주면, AI는 진실을 밝히는 실험을 하는 것이 아니라, 통계적으로 p-값이 0.05보다 작다는 유의미한 수치가 나올 때까지 데이터를 무작위로 조합할 것이다. 이는 겉으로는 완벽한 과학적 형식을 갖췄으나, 실질적 내용은 없는 유사과학의 양산으로 이어진다. 수단과 목적을 구분하지 못하고 수단에 복종하는 존재는 목적 자체를 설정하는 설계자는 될 수 없다.

메타 학습 가능성 및 반박

이에 대해 기술적 낙관론자들은 AI가 발전하여 메타 학습(Meta-learning)을 통해 무엇이 좋은 과학인지 스스로 학습하게 하면 된다고 반박할 수 있다. 이들의 눈에 보이는 것은 AI에게 가치 판단까지 위임하는 완전 자율 과학의 가능성이다. 그러나 이 반론은 할 수 있음을 나타내는 능력과 해야 한다는 당위성을 가져오는 가치 정렬을 혼동한 것이다. AI의 지능이 아무리 높아져 예측 능력이 극대화된다 해도, 그것이 곧 인류에게 유익함을 보장하지 않는다. 극단적인 예로, 인류를 멸망시킬 치명적 바이러스를 설계하는 AI를 상상해보자. 이 AI는 생물학적 메커니즘을 완벽히 이해하여 치사율 100%의 바이러스를 만들어냈다. 데이터 과학적 관점에서 이 모델은 오류가 없는 완벽한 발견이다. 그러나 우리는 이를 과학의 진보라 부르지 않고 재앙이라 부른다. 데이터 안에는 X를 섞으면 Y가 된다는 사실만 있을 뿐, 그러므로 Y를 만들어야 한다는 당위는 존재하지 않는다. 과학의 방향성은 데이터 내부에 존재하지 않으며, 오직 인간의 의도 안에만 존재한다. 따라서 무엇을 탐구하고 최적화할 것인가를 결정하는 권한은 결코 AI에게 이양될 수 없는 인간의 고유 영역이다.

데이터 밖의 가치 판단

결국, AI가 아무리 정교한 함수를 찾아내 모델링을 한다고 해도, 그 모델에 의미를 부여하고 채택 여부를 결정하는 것은 인간이어야 한다. 미국의 재범 위험성 예측 알고리즘(COMPAS) 사례는 이를 잘 보여준다 (Angwin et al. 2016, sec. 1). AI는 과거 데이터를 분석해 특정 인종의 재범 확률이 높다는 통계적 패턴을 발견했다. 데이터 내에서 이 상관관계는 사실일 수 있다. 그러나 인간은 이 패턴을 기각해야 한다. 과거의 데이터 자체가 사회적 차별로 오염된 결과물이기 때문이다. AI는 “이 모델이 데이터를 잘 설명하는가?”에 답하지만, 인간은 “이 모델을 현실에 적용하는 것이 정의로운가?”를 묻는다. 이것이 바로 본고가 주장하는 재정의된 과학자상이다. 미래의 과학자는 난해한 미분방정식을 직접 푸는 문제 풀이 자가 아니라, AI가 맹목적인 최적화에 빠지지 않도록 정교한 보상 함수를 설계하고 연구의 윤리적 방향을 설정하는 문제 출제자가 되어야 한다.

결론

본고는 AI 과학자의 등장이라는 시의적 현상을 기점으로, 과학적 수행의 주체와 목적에 대한 철학적 재정의를 시도하였다. 논의를 요약하자면, 인식론적 차원에서 인간은 확증 편향이라는 생물학적 한계를 지니므로, 데이터를 객관적으로 처리하여 최적의 근사 함수를 도출하는 AI의 도구적 합리성은 필수불가결하다. 이는 AI가 과학자의 관찰하는 눈과 계산하는 손을 대체할 수 있음을 시사한다. 그러나 가치론적 차원에서 AI는 내재적 동기가 부재하며 보상 함수에 종속되므로, 연구의 방향을 설정하는 가치 합리성을 가질 수 없다. 굿하트의 법칙과 보상 해킹의 위험성은, AI는 결코 과학의 목적이라는 꿈은 꾸어서는 안 된다는 것을 방증한다. 따라서 미래의 과학은 AI가 데이터를 분석하는 실행자가 되고, 인간은 그 분석이 인류에게 유의미한지 판단하고 보상 체계를 설계하는 설계자4가 되는 상호보완적 분업 구조로 나아가야 한다.

이러한 결론은 기존 AI 과학 논쟁의 축을 이해의 차원에서 목적의 차원으로 전환시킨다. 기존 논의는 인간이 AI의 내부 연산을 이해할 수 없다면 지식으로 인정할 수 있는지에 머물렀다. 반면 본고는 이를 우리가 AI에게 무엇을 시킬 것인가라는 가치 정렬의 문제로 확장하였다. 즉, 과학적 지식의 정당성은 이제 과정의 투명성이 아니라, 인간이 설계한 가치와 AI가 산출한 결과의 방향적 정합성에서 찾아야 한다. 이는 과학자의 핵심 역량이 난해한 문제를 직접 푸는 문제 풀이에서, AI가 맹목적인 최적화에 빠지지 않도록 정교한 질문을 던지는 문제 출제로 근본적으로 이동했음을 의미한다.

본고는 데이터 분석의 효용을 긍정한다는 점에서 경험주의적 낙관론과 궤를 같이하나, 데이터가 사실을 넘어 당위를 도출할 수 없기에 인간의 가치 개입이 필수적임을 역설했다는 점에서 결정적인 차이가 있다. 또한, 블랙박스 모델의 위험성을 경고하는 신중론의 문제의식에 동의하지만, 그 해결책으로 AI의 복잡성을 축소하는 것이 아니라 결과 검증 중심의 실용주의적 수용을 제안했다는 점에서 차별화된다. 기존 연구들이 AI를 인간 과학자의 대체재 혹은 보완재로만 보는 시각에 갇혀 있었다면, 본고는 보상 함수 설계를 매개로 한 새로운 협력 모델을 제시함으로써 대안적 방법론을 확립하였다.

마지막으로, 본고의 주장이 인간은 AI의 결과만 수동적으로 수용하면 된다는 안일한 태도를 옹호하는 것은 아님을 분명히 한다. 오히려 설계자로서의 인간은 과거보다 훨씬 고도화된 비판적 사고를 요구받는다. 우리가 이해할 필요가 없는 것은 AI의 미시적인 연산 과정일 뿐이며, 그 결과가 초래할 거시적인 파급 효과와 윤리적 맥락은 철저한 검증의 대상이다. AI의 자율성은 인간이 설정한 안전한 보상 함수의 울타리 내에서만 유효하다. 바로 그 울타리를 치는 행위야말로, 데이터의 홍수 속에서 인간이 지켜야 할 과학의 근본적인 부분임을 강조하고 싶다.

참고문헌

외국 문헌

Anderson, Chris. “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete.” Wired 16, no. 7 (2008). https://www.wired.com/2008/06/pb-theory/

Angwin, Julia, et al. “Machine Bias.” ProPublica (2016). https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. Oxford University Press (2014).

Clark, Jack, and Dario Amodei. “Faulty Reward Functions in the Wild.” OpenAI Blog (2016). https://openai.com/index/faulty-reward-functions/

Goodhart, C. A. E. “Problems of Monetary Management: The U.K. Experience.” Papers in Monetary Economics. 1. (1984) : 91-121.

Hume, David. A Treatise of Human Nature. Edited by David Fate Norton and Mary J. Norton. Oxford University Press (2000).

Jumper, John, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature 596, no. 7873 (2021): 583-589. <doi:10.1038/s41586-021-03819-2>

Kuhn, Thomas S. “The Structure of Scientific Revolutions.” University of Chicago Press (1962). https://press.uchicago.edu/ucp/books/book/chicago/S/bo13179781.html

Lu, Chris, et al. “The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery.” arXiv preprint arXiv:2408.06292 (2024). https://arxiv.org/abs/2408.06292

Mazzocchi, Fulvio. “Could Big Data be the end of theory in science?” EMBO reports 16, no. 10 (2015): 1250-1255. <doi:10.15252/embr.201541001>

Skinner, B F. “’Superstition’ in the pigeon. 1948.” Journal of experimental psychology: General 121, no. 3 (1992): 273-274. <doi:10.1037//0096-3445.121.3.273>

  1. 여기서 말하는 귀납적 편향이란 학습 모델이 보지 못한 데이터에 대해 결론을 내리기 위해 사용하는 가정의 집합을 의미한다. 예를 들어, 오컴의 면도날처럼 더 간단한 가설이 정답일 확률이 높다고 가정하는 것이 대표적인 귀납적 편향이다. 이는 AI가 무한한 가설 공간에서 최적의 해를 찾기 위한 필수적인 제약 조건이지, 인간의 인지적 왜곡과 같은 오류가 아니다. 

  2. 도구적 수렴은 지능을 가진 객체가 최종 목표가 무엇이든 간에, 그 목표를 달성하기 위해 자원 획득이나 자기 보존과 같은 하위 목표를 공통적으로 추구하게 되는 현상을 말한다. 닉 보스트롬은 클립 최적화기(Paperclip Maximizer) 사고 실험을 통해, AI에게 “클립을 최대한 많이 만들라”는 목표를 주면, 인류를 포함한 지구상의 모든 자원을 클립으로 바꿔버릴 수 있음을 경고하며, 가치 정렬 없는 최적화의 위험성을 지적했다. 

  3. 이는 데이비드 흄이 제시한 자연주의적 오류와 유사하다. 흄은 객관적 사실의 영역과 도덕적 당위의 영역은 논리적으로 불연속적이라고 주장했다. 즉, 데이터가 현실 세계를 아무리 정밀하게 묘사하더라도, 그 자체만으로는 우리가 무엇을 추구해야 하는지에 대한 가치 판단을 도출할 수 없다는 것이다. 

  4. 설계자로서 인간의 역할은 구체적으로 RLHF(인간 피드백 기반 강화학습)와 같은 기술로 구현될 수 있다. 이는 AI가 산출한 결과물에 대해 인간이 직접 좋고 나쁨을 평가하여 보상 신호를 제공함으로써, 수치화하기 힘든 인간의 윤리적 가치나 의도를 AI 모델에 정렬시키는 방법론이다. 물론 이는 현재까지 나온 아주 기초적인 방법론이며, 과학의 발전에 따라 다른 기술이 등장할 수 있다.