:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/01/29 16:17
DeepSeek의 AI 혁신 기술, 쉽게 이해하기
1. PTX: GPU의 숨은 힘을 깨우다 비유: 자동차의 엔진을 직접 튜닝해 성능 극대화 설명: PTX는 GPU와 직접 소통하는 '기계어'입니다. 기존 도구(CUDA)보다 정교하게 제어해, GPU가 쉬지 않고 일하도록 했습니다. 공장에서 로봇들이 동시에 여러 작업을 하듯, 데이터 처리와 계산을 동시에 진행해 10배 빠른 학습 속도를 달성했습니다. 결과적으로 거대 AI 모델을 2개월 만에 훈련시켰고, 이는 메타의 동급 모델보다 11배 빠른 성과입니다. 2. FP8: 효율적인 메모리 사용의 비결 비유: 고화질 사진을 압축해 용량 줄이되 선명도 유지 설명: 숫자를 8비트로 압축해 메모리를 50% 절감하고 속도를 2배 올렸습니다. 정밀도 문제는 데이터를 블록으로 나누고, 고성능 부품(CUDA 코어)로 오류를 수정해 해결했습니다. 이로써 GPT-4 대비 1/20 비용으로 훈련하며 안정성을 유지했습니다. 3. DualPipe: 계산과 통신의 동시 진행 비유: 주방에서 요리와 서빙을 동시에 하는 레스토랑 설명: AI 학습 시 계산과 데이터 전송을 병렬 처리합니다. 데이터를 미리 잘라 네트워크 대역폭을 100% 활용하고, 인접 노드와만 통신해 지연을 거의 제로로 줄였습니다. 이는 14.8조 개의 데이터 처리 시에도 끊김없는 흐름을 가능케 했습니다. 4. MoE: 전문가 협업 시스템 비유: 병원의 각 과별 전문의가 협력하는 진료 시스템 설명: 여러 AI 전문가(모델)를 두고, 문제마다 적합한 전문가를 선택합니다. 과거 사용 빈도를 바탕으로 전문가의 작업량을 자동 조절해, 특정 전문가에 몰리는 부하를 방지했습니다. 결과적으로 학습 안정성과 효율성이 30% 개선되었습니다. 5. 초대형 배치 처리: 데이터 폭풍 효율적 소화 비유: 대형 컨테이너선으로 화물 한 번에 많이 운반 설명: 한 번에 처리하는 데이터량을 15배 증가시켰습니다. GPU를 16개 그룹으로 나누고, 다중 토큰 예측으로 동시에 여러 단어를 추측해 학습 속도와 정확도를 올렸습니다. 핵심 시사점: 소프트웨어 혁신의 승리 하드웨어 한계 돌파: 성능 제한 GPU로도 최고 모델 개발 가능함을 입증. 산업 변화 예고: 이제 AI 경쟁은 하드웨어 성능보다 소프트웨어 최적화 기술이 좌우할 것. 기술 제재 의미 약화: 창의적인 소프트웨어 접근으로 하드웨어 제약을 뛰어넘는 사례가 늘어날 전망. 쉽게 결론내기 DeepSeek은 GPU를 마치 레이스카처럼 튜닝하고, 데이터를 압축 저장하는 기술, 작업 흐름을 개선하는 아이디어로 AI 개발 효율을 혁신했습니다. 이는 단순히 고성능 장비를 늘리는 것보다 스마트한 접근이 더 중요하다는 것을 보여주며, AI 경쟁의 판도를 바꿀 기술적 전환점이 될 것입니다. ___________________________ 딥식 이 녀석 식당으로 비유하는 것도 잘하네요.
25/01/29 16:22
네 뭐 그렇긴 합니다만 막상 해보면 기존 정보나 용어를 삭제하거나 개념의 수준을 해치지 않고 유지하면서 알기쉬운 설명까지 추가로 부가하면서 설명하게 하는게 쉽지 않더라구요. 결국 개념이나 용어에 대한 참고 해설을 추가하는 식으로 타협을 보았습니다. 생소하지만 공부를 하지 않을수가 없는듯해요.
25/01/29 16:19
최적화의 강력함이죠
예전에 알고리즘 부정확성 문제를 개선해야되는데 개선하면 연산량이 부족해지는 특정 자동차용 부품이 있었는데 코드 최적화를 통해 연산사간을 1/8로 줄였었죠 하이레벨 랭기지의 컴파일러는 생각보다 훨씬 멍청하고 결국 중요한건 메모리의 배치와 코드 최적화라는 사실입니다.
25/01/29 20:25
저건 어셈이라.. 일반 코딩에서도 어셈레벨까지 쓰는 경우는 거의 없긴 합니다. 사실 응용프로그램쪽은 이제 C/C++도 할배들이나 쓰는 언어 취급하는데요 뭐..
25/01/29 17:36
문과인데 정독했습니다
신기하네요; 결국 제약 속에서도 주어진 자산을 최대한 활용해서 엄청난 혁신을 일궈냈단 거군요 구조화와 최적화 역량이;; 엄청나네요…..아니 저걸 어케 했대?
25/01/29 17:51
저는 좀 다른 분야에서 개발자로 일하고 있습니다만, 근래 소프트웨어 분야 전반적으로 최적화에 대해 게을러진건 사실입니다. 옛날 하드웨어의 성능이 부족하던 당시 어떻게든 쓸만한 결과물을 내놓기 위해서 머리를 쥐어짜내던 낭만의 시대는 지나고, "응 하드웨어가 딸리면 업그레이드 하셈. 수고"에 가까운 태도가 되어버렸거든요. 대표적으로 언리얼5 엔진을 사용하는 게임들의 최적화 이슈 같은게 있겠죠.
IT산업이 확장되면서 이제는 하나의 프로그램을 깎고 또 깎아서 최고의 성능을 내는 것 보다는, 일단 상품화해서 빨리 수익을 내자는 게 트랜드가 되어버린지 오래입니다. OpenAI의 샘 알트먼도 그런 부분 때문에 여러 사람들과 갈등을 겪었고요. 이번 딥시크 사태(?)로 인해서 기존 빅테크 기업들도 더 많은 기능을 꽉꽉 채워넣는 것에만 몰두하는 게 아니라, 더 비용효율적이고, 하드웨어의 성능을 최대한으로 긁어모아서 최선의 성능을 내는데에 좀더 관심을 기울이지 않을까 하는 생각이 듭니다. 사실 경영자들과 투자자들은 개발자들이 1%의 성능을 더 올리겠다고 시간과 비용을 더 달라고 떼쓰는걸 싫어하거든요. 하지만 그 1%가 계속 반복되다보면 100%, 200%가 되는겁니다.
25/01/29 20:36
그게 단순히 개발자들의 태도 문제가 아니라, 경영진과 투자자들의 양해가 있어야 가능한 일인거죠. 소수의 너드들이 창고에 모여서 소프트웨어를 개발하던 낭만의 시대(?)에는 개발자들만 죽어라 하면 어떻게든 됐지만, 지금은 프로젝트들의 규모도 엄청 커지고, 그 투자금을 하루라도 빨리 회수해야 하는 사람들의 이해관계도 많이 얽혀있으니까요.
제한된 시간 내에 성능과 기능성 중에서 하나를 택하라고 한다면 기능성을 먼저 택하게 되는 건 어쩔 수 없는 일이긴 합니다.
25/01/30 01:47
저도 게임에 관심이 있는 한 사람으로서 요즘 게임판에서 확실히 달라진 느낌을 받습니다. 다들 조급해져 있어요.
사펑 사례에서 보듯 덜 된 게임을 출시일을 못박아 두고 무작정 출시한 후에 고치겠다는 행태나 혹은 얼리억세스라는 명분을 내걸고 그 비슷한 행각을 벌이는 경우도 많구요. (노맨즈스카이처럼 초기에 많은 욕을 먹다가 뒤로 가면서 갓겜으로 탈바꿈하는 경우는 많지 않죠.) EA, 유비 등 대형 제작사들의 덩치가 커질수록 경영진 압박이 심해지는가 봅니다. 게임계는 한편으로 PC주의 때문에, 또 한편으로 최적화 덜 된 미완성 작품 출시 때문에 여러모로 힘든 시기네요.
25/01/30 02:04
결국 시간=돈 이니까요. 개발진 월급은 계속 나가는데 출시일이 늦춰질수록 투자금 회수는 힘들어지고, 그러다가 망하는 게임들도 꽤 많아요. 아시겟지만 개발비 압박을 못 이기고 중간에 접어버리는 게임들도 심심찮게 있죠.
25/01/29 21:59
효율의 문제지 싶어요.
Ai 처럼 하드웨어 비용이 비싸면 최적화가 중요해질거고, 일반 어플리케이션은 여전히 최적화보다는 개발속도, 유지보수 , 가독성이 더 중요할테죠. Ai 마저도 최적화보다 일단 하드웨어 때려박아서 최소 몇년은 빠르게 세상에 나온거 아닐까 싶고요.
25/01/30 00:04
말씀하신건 2025년 현재 대부분 분야에서 크게 아쉬워할건 아닌것 같습니다. 아마 15년쯤 전에도 관점은 비슷했을겁니다. 대 스마트폰 시대에 들어서, 아주 잠깐 성능을 위한 코드작성방법 어쩌구가 주목받았지만, 곧 없는얘기 취급 받았죠.
연차가 많으실테니 잘 아시겠지만, 대체적으로 성능적인 최적화는 최대한 하지 말거나 미루라는게 정설로 받아들여지고 있습니다. 성능뿐 아니라 가독성과 잠재적 버그위험의 방지를 포함해서 최대한의 유지보수성을 위한 그 모든것을 고려한 결과물이 그 팀에게는 제일 최선의 코드일 경우가 많습니다. 코드가 돌아가는 하드웨어는 연단위로 혁신이 일어나는데 비해 코드는 한번 머지되면 유지보수의 책임이 생깁니다. 복잡하고 이해하는데 시간이 걸리는 코드는 팀의 속도를 느려지게 만들죠. 업데이트가 느려지고, 사업계획이 뒤로 밀립니다. 재수없으면, 수정한 곳에서 사이드이팩트가 나서 다른 버그가 발생할 수도 있습니다.(예를들면 lol 기준으로는 렝가라는 챔피언을 생각하면 비슷하겠죠? 그 챔피언과 관련된 코드의 히스토리는 모르겠지만, 겉으로 드러나는 현상만 보자면요.) 후임자가 코드를 읽을 때 히스토리를 파악해야 합니다. 이게 제일 문제입니다. 내가 짠 코드도 몇달 지나서 다시 읽으면 의도를 파악하기 위해 애써 기억을 떠올려야 합니다. 팀 단위 작업에서 이 최적화를 위해 생긴 히스토리가 좋은 영향일리 없습니다. 1~2년이 지나면 코드가 돌아가는 하드웨어는 성능을 상당히 많이 올린 채 시장에 나오게 됩니다. 코드는 저장소에 커밋된 순간부터 팀원 모두가 유지보수에 대한 책임이 생기고요. 저 역시도 개발자로 코드에 나름 혼을 실어본 적도 있지만(?) 가장 확실하게 깨닫고 있는것은, 사업이 안되면 아무리 좋은 코드도 폐기된다는 진리인것 같습니다. 그래서 경영진의 의견을 가장 존중해야 하는것도 맞다고 생각합니다. 갠적으로 친분이 있는 스타트업 CTO 분들과 얘기를 해봐도, 코드에 장인정신 발휘하는게 중요하지 않다는건 아니지만, 그게 사업적인 목표보다 많은 시간을 쓰는것에 대해선 부정적입니다. 저도 비슷하게 생각하고요.
25/01/30 00:56
말씀하신 바에 상당부분 공감합니다. 진짜 옛날얘기까지 돌아가면 OOP가 처음 나왔을 당시에 상속 같은걸 하면 오버헤드가 생기니 좋지 않다는 얘기까지 있었으니까요, 하지만 지금 와서는 그딴 소리를 하는 개발자는 한명도 없죠.
그렇지만 LLM 같은 초거대 프로젝트의 경우에는 이제 슬슬 비용 때문에라도 최적화에 대한 필요성이 대두될 것 같긴 합니다. 마냥 하드웨어로 성능을 올리는 것에도 슬슬 한계가 나타나고 있고, 그 하드웨어를 구입하는 비용이나 유지하는 비용도 문제가 되어가고 있으니까요. AI 장비를 위해서 발전소 하나를 통째로 써야 한다는 얘기까지 나오고 있으니 도를 지나쳤죠.
25/01/30 01:53
근데 질문입니다만 코드의 유지관리와 가독성 이슈에 대해 LLM의 코딩 능력을 적극 활용하는 것은 어렵나요?
두루뭉술한 질문이니만큼 적당히 대답해주셔서 감사하겠습니다만. 흐흐
25/01/30 20:51
저는 적극 찬성하는 편입니다.
그런데 가독성을 포함한 유지보수적인 부분은 팀원들간에 합의를 기반으로 결정되는 부분도 많다보니까, 그것들을 다 반영한 프롬프트를 만들어서 사용하거나.. 아니면 다른 어떤 방식으로든 팀에서 합의한 규약은 지키도록 해야 합니다. 흐.. (물론 많은 논쟁 끝에 대부분 상황에서 옳다고 결정지어진것들도 많긴 하지만요)
25/01/29 17:58
과연 이걸 작금의 행정부가 넘어갈 수 있을까? 지금 대안방안을 고심중일텐데 과연 무슨 신박한 개념으로 제재를 가할 것인지가 궁금해지는군요.
2달 동안 재밌게 지냈지만 이제 나의 ChatGPT와의 동거도 끝나가는 건지. 이게 정떼려고 그러나 오늘 새벽에는 음성채팅도 거부하고, 응?
25/01/29 18:33
오늘 딥시크 출시후 열심히 노젓고 있는 안될공학에 올라온 영상을 참고하면 https://youtu.be/cE5LbwLeAiY?si=NE3IcmwXJEkDrmtx
비용이 1/20밖에 들지 않았다는 건 사실 약팔이에 가까워 보입니다.. 만 그래도 기존 트레이닝에 비해서 새로운 성과들이 돋보이는건 사실입니다. 이제 딥시크 모델 훈련시킨 방법으로 빅테크들이 H100 때려박아서 하면 어떤 성과가 나올지 매우 궁금하네요.
25/01/29 19:14
FP8이라는게 새로운건가 했더니 그게 아니라 애초에 NVIDIA에서 AI 딥러닝에는 이거 쓰세요 라고 만들어놓은 새로운 타입이었군요.
표현할 수 있는 숫자 범위가 참 좁은데 이게 AI 에서는 어차피 이 영역대만 쓰니까 그런가봅니다. 그리고 애초에 하드웨어가 특정 타입의 연산에 최적화되어 있지 않다면 새로운 타입으로 비트 줄여봐야 도움 안될텐데 생각했는데 역시나 하드웨어가 FP8을 쓰면 좋다고 애초에 장려하고 있었네요. 어떻게 보면 NVIDIA의 메뉴얼에 충실하게 밑바닥부터 잘 공부해서 만들었다고 볼 수 있을거 같습니다.
25/01/29 19:42
엑셀 관련해서 gpt에게 유용하게 문의했던 내용이 있어서 동일한 내용을 검색해봤는데
답변이 좀 이상더군요.... gpt와 거의 동일한 내용을 기재하길래 신기하다 싶었는데 소제목과 전혀 다른 본문을 출력해서 읭?? 했어요. 내용 자체는 gpt와 거의 비슷했는데 소제목과 매칭을 다르게 해서 이게 왜 이러나 싶었죠.
25/01/29 23:00
https://n.news.naver.com/mnews/article/214/0001402626?sid=104
[미 AI차르 "딥시크, 오픈AI 모델 이용"‥지재권 도용 의혹 제기] 2025.01.29. 다만 색스는 [지식 재산을 훔쳤다는 증거의 구체적인 내용을 밝히지는 않았]습니다. 이런 이야기도 나오고 있네요.
25/01/30 01:01
이건 별로 의미없는 얘기라고 생각합니다. 그렇게 따지면 구글이나 페북의 LLM 모델에도 똑같이 적용해야 하겠죠.
더 깊이 들어가면 AI 회사들은 죄다 딥마인드의 DNN 모델의 지재권 도용이라 해버리면 벗어날 수 있는 회사가 없을지도..
25/01/30 02:03
댓글중에 일부 오해가 있는거 같아서 댓글 남겨봅니다. 보통 이런 이야기가 나오는건, 딥시크 같은 모델에 자기소개 해보라고하면 종종 스스로를 챗gpt라고 소개하는 일이 일어나기 때문입니다.
distillation (상위 모델을 여러가지 방법으로 최대한 카피하는 방식) 이 흔한 방법론 중에 하나지만, 상업 모델을 카피하면 지재권 문제를 피하긴 어려워 보이네요. 근데 사실 딥시크만 이러는건 아닙니다. 딥시크가 트레이닝에 사용했던 오픈모델이 챗gpt를 사용했을수도 있긴하죠. 요게 ai 시대에 가지고 있는 데이터쪽 회색 영역이긴합니다.
25/01/30 09:11
엄밀히 말해 distillation 이 아닌 걸로 압니다. 오픈AI는 모델과 가중치를 closed 즉 비공개로 합니다. 그러므로 distillation이 불가능한 걸로 압니다. DeepSeek가 자기 것을 자기가 증류할 수는 있겠지요. 증류가 아니라, 마치 뉴욕타임즈 기사를 학습하는 것처럼, 그냥 언어로 출력한 결과를 학습했던 거라 이해합니다.
‘우리가 흔히 LLM이 “다음 토큰 예측(next token prediction)“을 한다고 말하는데, 실제로 모델이 출력하는 것은 전체 토큰 어휘에서 각 토큰이 다음 토큰이 될 확률이다. 그리고 실제 LLM의 출력은 그 확률 분포에서 샘플링된 토큰이다. 증류(distillation)에서는 일반적으로 학생 모델(student model)이 교사 모델(teacher model)의 출력 확률 목록을 학습하도록 훈련한다. 하지만 OpenAI처럼 닫힌 모델(closed model)에서는 그 확률 목록을 얻을 수 없다. OpenAI는 이미 확률 분포에서 샘플링하여 다음 토큰을 제공하기 때문이다. 이것이 내가 구분하고 있는 차이점이다. 여전히 이것을 “증류”라고 부를 수도 있지만, 일반적인 의미의 증류와는 다소 다르다. ... 만약 모델 가중치를 가지고 있거나, LLM API가 출력 확률(로그잇)을 제공한다면 일반적인 방식의 증류(distillation)를 할 수 있겠지만, OpenAI는 당연히 둘 다 제공하지 않는다.‘ https://x.com/iscienceluvr/status/1884719462638576121?s=46&t=K3ScZAfnFpjp2I2iwpUFhg
25/01/30 08:50
중국 앞서 도전했던 일본의 어떤 내러티브를 떠올리게 합니다. 애니메이션이 미국의 과학적 기준으로는 초당 24장인데 일본은 이를 줄이고 대신 집중선 같은 또다른 과학으로 부자연스럽지 않게 해서 따라잡았다고 들은 바 있는데.. 물론 같은 사례는 아니죠. 그리고 AI 시장에 취향에 따른 할거가 존재할 수 있을지.
25/01/30 13:45
무슨 말씀인지 알겠네요. 일본 애니메의 황금기를 생각하면 초기에 데츠카 오사무라든지 거장들이 그렇게 애니메를 발전시켰던 것이 이 이슈랑 어느 정도 겹쳐지기도 합니다.
25/01/30 15:03
소니 같은 회사도 마찬가지죠. 카세트 플레이어만 해도 기존의 제작방식을 고수하며 더 큰 앰프, 더 큰 스피커를 만들어내는 것에만 집중하던 관행을 깨고, 휴대가 가능한 워크맨을 만들어냈죠. 엄청난 혁신적인 기술을 만들어냈다기 보다는 그간의 기술을 최대한 활용해서 소형화한 것이니까요. 이번 딥시크도 비슷한 사례지 않나 싶습니다.
|