주메뉴바로가기 본문바로가기

추천검색어 benchmark 마크 벤치

뉴스

"벤치마크"(으)로 총 39건 검색되었습니다.

: "5년 지나도 정착 안되는 입원 전담 전문의…전문성 인정해야"동아사이언스 l2025.07.21; 입원 환자를 전담하는 전문의가 탄생했다. 한국은 미국 입원 전담 전문의 제도를 벤치마크 삼아 2015년 분당서울대병원이 처음으로 입원 전담 전문의를 채용했다. 당시 분당서울대병원에 암병동이 생기면서 병상 수가 2배로 늘어났다. 전공의들이 과도한 업무에 시달리게 되자 입원 전담 ... ...

: 또 한번의 '딥시크 모먼트'…中 문샷 AI, 키미 K2 출시동아사이언스 l2025.07.17; 흥미로워할 만한 아이디어를 AI가 얼마나 잘 예측하는지를 평가하는 사이무스(SciMuse) 벤치마크에서는 구글의 제미나이(Genimi), 오픈AI의 챗GPT에 뒤졌다. 키미 K2의 전체 파라미터 규모는 1조 개에 달하지만 혼합 전문가(MoE) 모델 구조를 이용해 계산 효율을 높였다. 파라미터는 함수나 모델의 특성을 ... ...

: 한국판 '딥시크' 만들 수 있다…서울대 연구진 '고성능 한국어 LLM' 개발동아사이언스 l2025.07.02; 국내 소버린 AI(자국 AI)에 기여한 의미 있는 결과”라며 “한국어 기반 LLM 및 토크나이저, 벤치마크 데이터셋을 온라인에 공개하고 개발 과정 또한 상세히 기술해 누구나 후속 및 재현 연구에 활용할 수 있도록 했다”고 말했다. 연구 성과는 ‘초거대 AI모델 및 플랫폼 최적화 센터’ 웹페이지(https:/ ... ...

: AI가 생성한 한국어 댓글 '꼼짝마'…KAIST, 탐지기술 세계 첫 개발동아사이언스 l2025.06.23; 이용자 스타일을 모방한 한국어 AI 생성 댓글 데이터셋을 구축하고 데이터셋 중 일부를 벤치마크 데이터셋으로 공개했다. XAI 기법을 적용해 언어 표현을 정밀 분석한 결과 AI 생성 댓글에는 사람과 다른 고유한 말투 패턴이 있다는 점이 확인했다. 예를 들어 AI는 '것 같다', '에 대해' 등 형식적 ... ...

: 수학자 비밀 모임서 AI 수학 실력 테스트 결과에 '경악'동아사이언스 l2025.06.15; 약 300여개의 수학 문제로 구성된 프론티어매스 테스트는 AI 성능을 판단할 수 있는 벤치마크다. o4-미니는 문제의 약 20%를 풀었다. 지금껏 프론티어매스 테스트에서 AI가 기록한 가장 높은 정답률은 2% 미만이었다. 에포크 AI는 새로운 프로젝트를 시작했다. 세계 각국에서 수학자 30명을 모아 o4 ... ...

: 사람과 협업하는 세계 최고 성능 'AI 로봇 파지 모델' 개발동아사이언스 l2025.04.29; 산업 현장에서의 적용 범위를 획기적으로 확장했다. 우수한 성능도 입증됐다. 파지 벤치마크 데이터세트인 ‘Grasp-anything’과 ‘Jacquard’에서 최고 수준(SOTA)*의 성능을 달성했다. 실험 결과 복잡한 실제 환경에서도 로봇이 안정적으로 파지 작업을 수행할 수 있다는 것이 확인됐다. 특히 눈동자 ... ...

: '극단적 선택' 조언하는 AI…윤리문제 현실화동아사이언스 l2025.04.14; '블랙박스' 문제가 있고 윤리 성능을 객관적으로 평가하는 것도 어렵다. AI의 성능은 보통 벤치마크라는 기준을 만들어서 평가한다. 수학이나 법학처럼 답이 명확한 분야는 문제 풀이를 통해 AI의 성능 수치를 명확히 제시할 수 있지만 사람의 가치 체계에 얼마나 정렬됐는지는 수치로 나타내기가 ... ...

: "상위AI 모델 성능 격차 줄어…美, 더이상 선두 아냐"동아사이언스 l2025.04.08; AI 모델 성능 관점에서 미국이 더이상 선두가 아니라는 분석도 나왔다. 일반적인 AI 성능 벤치마크인 MMLU를 기준으로 중국의 주요 모델은 2023년 기준 미국 상위 모델보다 성능 점수가 약 20% 뒤처졌지만 2024년 말 기준 차이가 0.3%로 없다시피 했다. 세계지식재산기구(WIPO) 통계에 따르면 1 ... ...

: 중국 ‘딥시크 충격' 오픈AI "딥시크, 자사 데이터 무단 수집 가능성"동아사이언스 l2025.01.30; 다른 경쟁 모델보다 가장 뛰어났다고 설명했다. R1 또한 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 오픈AI의 추론 모델 'o1'(79.2%)을 앞섰다. 딥시크의 놀라운 점은 개발 비용이다. 딥시크가 V3 개발에 들인 비용이 557만6000달러(약 78억8천만원)에 불과하다고 밝혔다. ... ...

: 추론형 AI에 수학문제 풀리는 이유는?…"AGI가 최종 목표"동아사이언스 l2024.12.27; 물리학·과학·수학과 같은 분야에서 더 신뢰할 수 있다"라고 강조했다. 실제로 o3는 벤치마크(성능 측정)에서 다른 모델을 압도한다. 올해 미국초청수학시험(AIME)에서 o3는 단 한 문제만 틀려 96.7%의 점수를 기록했다. 대학원 수준의 생물학, 물리학, 화학 문제 테스트(GPQA Diamond)에서는 87.7%의 성과를 ... ...

공지사항