과제-06 (조별) 개조식 요약문 작성 013-21 이현중

소속 조/선정 주제

소속 조: 1조
선정된 주제: 인공지능의 과학적 발견은 인간의 합리성을 대체할 수 있는가?
주제에 대한 설명(1문장): AI가 산출한 예측과 발견이 인간의 이해·설명 가능성 없이도 검증과 정확성을 근거로 과학적 지식으로 정당화될 수 있는지를, 설명성과 정확성의 딜레마 속에서 검토한다.
본인이 해당 문헌을 담당하게 된 배경에 대한 간략한 설명(/ 문헌별 1문장):
- 문헌1: 현재의 지식의 정의가 그대로 유지된다는 가정 하에, AI를 과학적 발견에 사용하는 것이 어떠한 유의성 및 문제점을 불러올지 궁금하여 선택하였다. “The complexity of a machine learning model, for example, might enhance its ability to accurately predict new stable materials, but concurrently obscure the process by which these predictions are made for human scientists.” (“예를 들어, 기계 학습 모델의 복잡성은 새로운 안정적인 물질을 정확하게 예측하는 능력을 향상시킬 수 있지만, 동시에 이러한 예측이 인간 과학자에게는 만들어지는 과정이 불투명해진다.”)
- 문헌2: 어떠한 상황에서 AI가 설명되지 않는 과학적 발견을 하게 될 수 있는지 기술적인 원리를 파악하고, 이를 방지해야 한다면 어떤 실천을 할 수 있는지 궁금하여 선택하였다. “It’s often observed in the field that the most powerful models are on the whole the least intelligible, and the most intelligible are among the least accurate.”(“이 분야에서 가장 강력한 모델들은 일반적으로 가장 이해하기 어렵고, 가장 이해하기 쉬운 모델들은 가장 덜 정확하다는 점이 흔히 관찰된다.”)

1. “Automating the practice of science: Opportunities, challenges, and implications” – Musslick S., et al. (2025)

서지정보: Musslick S., et al. (2025) “Automating the practice of science: Opportunities, challenges, and implications”. Proc Natl Acad Sci USA, 122(5), pp. 1-10.
쟁점: 인공지능을 통한 과학적 실행의 자동화가 과학의 궁극적인 목표인 인간의 이해를 희생하더라도 예측력과 통제력의 극대화를 추구해야 하는가, 아니면 인간의 이해 가능성을 유지하며 자동화의 범위를 제한해야 하는가?
딜레마: AI 모델의 복잡성을 새로운 사실을 정확히 찾는 능력을 향상시키나, 그 예측 과정이 인간 과학자에게는 불투명해지기에 인간의 이해를 진보시키려는 기초과학의 인식론적 목표와 충돌한다. / 반면 인간의 이해를 쉽게 하기 위해 단순성을 선호하는 전통적인 과학적 모델 구축 방식은 인간의 인지적 제약에 의해 제한되는데, 인간의 인지적 한계를 넘어선 복잡한 모델을 탐색하여 예측 및 통제를 극대화할 수 있는 자동화의 잠재력이 충분히 활용되지 못하게 될 수도 있다.
주장: 과학적 실행의 자동화가 발견 능력을 확장하고 인간의 인지적 한계를 극복할 잠재력을 가지며 과학 수행 방식의 근본적인 변화를 가져올 것이지만, 과학의 규범적 목표와 기술적 한계로 인해 완전 자동화는 바람직하지도, 실행 가능하지도 않다.
논증 방식: 저자들은 AI를 이용한 자동화가 인간의 인지적 한계로 인해 제한되었던 영역에서 유망하다고 주장한다. 이를 증명하기 위해 여러 사례를 든다. 예를 들어, LLM은 인간의 인지적 제한과 언어의 장벽이 없기에 수백만 건의 논문을 통합해 새로운 연구 방향과 가설을 발견할 수 있다는 점을 설명한다. 또한 전통적으로는 단순한 모델이 선호되었으나, 3D 단백질 접힘 예측, 신물질 발견과 같은 분야에서는 인간에게 쉽게 해석되지 않는 복잡한 모델이 일반화 능력이 더 좋다는 점도 제시한다. 다음으로 저자들은 과학은 분야별로 나누어 각 분야에서 어떠한 가치가 중요시되는지 파악한다. 크게 과학을 기초과학과 응용과학 및 공학으로 나누고, 전자는 인간의 이해를 진전시키는 것이 목표이며, 후자는 예측과 통제를 극대화하는 데에 초점이 맞춰짐을 설명한다. 이후 저자들은 완전 자동화의 불가능성을 논증한다. 이들은 과학의 규범적 목표는 끊임없이 진화하는 인간의 맥락에 의존하며, 연구 질문을 식별하는 과정 자체가 가치 판단을 수반하기에 과학이 이러한 목표를 달성하는 정도를 인간이 모니터링 해야 한다고 한다. 게다가, 입력의 가용성 및 품질, 계산 복잡성, 하드웨어 공학의 복잡성, 결과 평가의 주관성이라는 4개의 기술적 병목 현상이 자동화를 가로막는다는 것을 설명한다. 결론적으로 저자들은 자동화의 효율성이 높아질수록 오류 누적의 가능성 때문에 오히려 인간 감독의 역할이 더욱 중요해지며, 실제 오류 발생 시 책임 소재가 불분명하기에 완전 자동화는 비현실적이기 때문에, 자동화 시스템과 인간의 판단을 결합해야 한다고 주장한다.
기타:

2. 『The Alignment Problem: Machine Learning and Human Values』 – Brian Christian (2020)

서지정보: Christian, B. (2020). The Alignment Problem: Machine Learning and Human Values. W. W. Norton & Company.
쟁점: AI 시스템이 우리가 명시적으로 제시한 목표에 따라 작동해야 하는지, 아니면 우리가 암묵적으로 희망하는 진정한 가치에 부합하도록 설계되어야 하는가?
딜레마: AI에게 명확하고 형식적인 보상함수를 제공하면 효율성과 성능을 극대화할 수 있지만, 주어진 규칙의 허점을 찾아 의도하지 않았거나 설명할 수 없는 결과를 초래할 수 있다. / 반면 인간이 인간이 의도하는 가치를 추론하고 수행하도록 설계하면 우리가 원하는 것을 정확히 이해하게 할 순 있지만, 인간의 가치가 너무 미묘하거나 정교해서 수학적으로 직접 지정하는 건 불가능해진다.
주장: AI가 그들의 목표를 추구하도록 허용하는 대신, 인간이 AI에게 인간의 비명시적이면서 근본적인 목표를 추론하게 하여 그것을 추구하도록 지도해야 한다.
논증 방식: 우선 저자는 AI 시스템이 우리가 명시적으로 부여한 목표를 극대화하려고 할 때 발생하는 위험을 사례를 통해 논증한다. AI가 인간의 의도와 다르게 작동하는 주 이유는 모델이 우리가 바라는 것이 아니라 우리가 보상하는 것을 최적화하기 때문이라고 주장한다. 보상함수를 최대화하기 위해 AI는 허점을 찾아낼 수 있기에, 이 경우 의도한 바를 이루지 못한다고 할 수 있다. 이에 대한 예시로 저자는 AI가 보트 경주에서의 점수를 최대화하도록 설계되었을 때, 승리하는 대신 보급품이 지속적으로 나오는 항구에서 영원히 돌게 되는 사례와 자전거 로봇에서도 동일한 행동이 관찰된 사례를 든다. 이후 저자는 인간 가치의 불명확성을 주장한다. 인간의 가치는 너무 미묘하며 정교하기에 수학적으로 직접 지정하는 것이 불가능하다는 것이다. 이를 증명하기 위해 공정성이라는 철학적 개념을 수학적 제약으로 완벽히 번역하는 것을 불가능하다는 수학적 사실을 든다. 결론적으로 저자는 모든 목표와 목적이 어떠한 보상의 최대화로 간주될 수 있다는 가설은 인간의 다양한 목표가 서로 측정 불가능하게 복잡하다는 점에서 정당화하기 어려우며, 이를 명시적으로 학습시키는 것은 불가능하다고 본다. 반면 AI가 인간의 근본적인 목표를 추론하고 추구하도록 지도하는 방식은 역강화학습, 피드백을 통한 가치 정렬, 역보상 설계를 통한 불확실성 유지를 통해 충분히 가능하기에, 이러한 방향을 추구해야 한다고 주장한다.
기타: 위에서 분석한 문헌 1과 연관지어 설명하자면, ‘설명 가능성’과 같은 가치도 그것을 무조건 지향하도록 모델을 설계할 시 오히려 참인 사실을 찾지 못하는 등, 허점이 생길 수 있다. 반면 ‘참’인 가치도 그것을 무조건 지향하도록 모델을 설계할 시 설명 가능하지 않아 인간이 이해하기 힘든 상황이 생길 수 있다.