Nvidia geforce 8600 gt cuda

CUDA on GeForce 8600GT

I have got the cuda driver, toolkit and sdk installed in Ubuntu 10.04. I’m using nVidia Geforce 8600 GT card. Official website says my card is CUDA supported. But on running the deviceQuery that comes with the cuda sdk, I’m getting the following output.

Moreover, while booting, I’m getting the following error. Ubuntu is running in low-graphics mode

But, when I restart X, it boots perfectly.

And, glxinfo gives the following output.

So, is GeForce 8600GT actually not CUDA supported, or is the problem with something else? Thanks.

1 Answer 1

Well. There is a good way to install the nvidia driver correctly and the avoid problems later. Here is a great howto, step-by-step, easy-to-use.

But let me correct it out, regarding the 10.04 release !
First of all (before steps), download the «dkms» pack from the bottom of the post on the linked page, and the nvidia driver from nvidia.com into your home directory.
Step1, remove the drivers. Fix the «180» to «190» or «195» , don’t sure how Ubuntu calls it at the minutre.
At step 2, edit /etc/blacklist.d/blacklist.conf . Add 2 new entries to the end:
blacklist nv
blacklist nouveau

Then do a reboot, at the boot menu, select recovery mode. Go with the «root mode with networking» (or what, its at the bottom, you will be able to identify it, don’t worry about the instructions. :))

When it boots, type your root password. Then type: init 3 . Login again (yay).

Now, install the driver with sudo sh ./NV* . There will be an error about «distributor provided..» don’t care about it, just agree, yes yes (more, grep, fsck :)).

After it finishes, do a sudo nvidia-xconfig . THEN, do the sudo sh ./installdkms* part. After it finishes, you are done, reboot.

Yeah I’m aware of the howto and how its ‘harder’ than the «install restricted modules». However, a lot of people noticed issues , anomalies with the default driver. This way you will get the NVidia binary driver, more recent than the one Ubuntu ships, and it won’t be a problem during kernel upgrades. Also, you can upgrade the driver by hand whenever you want. If you get stuck, comment, ask. (Check which part seems to be hard , check if you can find that blacklist and such before you dive in.)

And yeah, after this, we’ll continue with the CUDA stuff. 🙂

Источник

NVIDIA GeForce 8600 GT : технические характеристики и тесты

Описание

NVIDIA начала продажи GeForce 8600 GT 17 апреля 2007 по рекомендованной цене 159$. Это десктопная видеокарта на архитектуре Tesla и техпроцессе 80 нм, в первую очередь рассчитанная на геймеров. На ней установлено 512 Мб памяти GDDR3 на частоте 0.7 ГГц, и вкупе с 128-битным интерфейсом это создает пропускную способность 22.4 Гб/с.

С точки зрения совместимости это однослотовая карта, подключаемая по интерфейсу PCIe 1.0 x16. Длина референсной версии – 170 мм. Для подключения не требуется дополнительный кабель питания, а потребляемая мощность – 47 Вт.

У нас нет данных о результатах тестирования GeForce 8600 GT.

Общая информация

Сведения о типе (для десктопов или ноутбуков) и архитектуре GeForce 8600 GT, а также о времени начала продаж и стоимости на тот момент.

Место в рейтинге производительности не участвует
Архитектура Tesla (2006−2010)
Графический процессор G84
Тип Десктопная
Дата выхода 17 апреля 2007 (15 лет назад)
Цена на момент выхода 159$
Цена сейчас 186$ (1.2x) из 49999 (A100 SXM4)

Характеристики

Общие параметры GeForce 8600 GT: количество шейдеров, частота видеоядра, техпроцесс, скорость текстурирования и вычислений. Они косвенным образом говорят о производительности GeForce 8600 GT, но для точной оценки необходимо рассматривать результаты бенчмарков и игровых тестов.

Количество потоковых процессоров 32 из 18432 (AD102)
Частота ядра 540 МГц из 2610 (Radeon RX 6500 XT)
Количество транзисторов 289 млн из 14400 (GeForce GTX 1080 SLI (мобильная))
Технологический процесс 80 нм из 4 (H100 PCIe)
Энергопотребление (TDP) 47 Вт из 900 (Tesla S2050)
Скорость текстурирования 8.6 млрд/сек из 939.8 (H100 SXM5)
Производительность с плавающей точкой 76.16 gflops из 16384 (Radeon Pro Duo)

Совместимость и размеры

Параметры, отвечающие за совместимость GeForce 8600 GT с остальными компонентами компьютера. Пригодятся например при выборе конфигурации будущего компьютера или для апгрейда существующего. Для десктопных видеокарт это интерфейс и шина подключения (совместимость с материнской платой), физические размеры видеокарты (совместимость с материнской платой и корпусом), дополнительные разъемы питания (совместимость с блоком питания).

Интерфейс PCIe 1.0 x16
Длина 170 мм
Толщина 1 слот
Дополнительные разъемы питания нет
Поддержка SLI +

Оперативная память

Параметры установленной на GeForce 8600 GT памяти — тип, объем, шина, частота и пропускная способность. Для встроенных в процессор видеокарт, не имеющих собственной памяти, используется разделяемая — часть оперативной памяти.

Тип памяти GDDR3
Максимальный объём памяти 512 Мб из 128 (Radeon Instinct MI250X)
Стандартный объем памяти на одну видеокарту 256 Мб
Ширина шины памяти 128 бит из 8192 (Radeon Instinct MI250X)
Частота памяти 700 МГц из 21000 (GeForce RTX 3090 Ti)
Пропускная способность памяти 22.4 Гб/с из 14400 (Radeon R7 M260)

Видеовыходы

Перечисляются имеющиеся на GeForce 8600 GT видеоразъемы. Как правило, этот раздел актуален только для десктопных референсных видеокарт, так как для ноутбучных наличие тех или иных видеовыходов зависит от модели ноутбука.

Видеоразъемы 2x DVI, 1x S-Video

Поддержка API

Перечислены поддерживаемые GeForce 8600 GT API, включая их версии.

DirectX 11.1 (10_0)
Шейдерная модель 4.0
OpenGL 2.1 из 4.6 (GeForce GTX 1080 (мобильная))
OpenCL 1.1
Vulkan N/A
CUDA 1.1

Тесты в бенчмарках

Это результаты тестов GeForce 8600 GT на производительность рендеринга в неигровых бенчмарках. Общий балл выставляется от 0 до 100, где 100 соответствует самой быстрой на данный момент видеокарте.

Passmark

Это очень распространенный бенчмарк, входящий в состав пакета Passmark PerformanceTest. Он дает видеокарте тщательную оценку, производя четыре отдельных теста для Direct3D версий 9, 10, 11 и 12 (последний по возможности делается в разрешении 4K), и еще несколько тестов, использующих DirectCompute.

Источник

32 калифорнийских стрелка в действии Nvidia Geforce 8600 GTS (G84)

Часть 1: Теория и архитектура

С момента выхода старшей линейки DX10-ускорителей Geforce 8800 прошло несколько месяцев, скоро будет уже полгода. Обычно «середнячки»,как называют видеокарты среднего уровня, выходят с задержкой в 3-4 месяца, но никак не полгода. Видимо перевод техпроцессов на 0.08 мкм был не столь легким и простым. Вероятно были какие-то еще причины, возможно маркетинговые.

Очень может быть, что те пресловутые проблемы с качеством драйверов для семейства 8800 дали о себе знать, и Nvidia не хотела выпускать новинки раньше того, как исправят самые одиозные баги. Ведь не секрет, что многие форумы до сих пор жужжат как разбуженные ульи, по поводу того, как работает та или иная игра на Geforce 8800. И речь идет не только о Vista, но и о старом добром Windows XP. В настоящее время наметился некий прогресс в улучшении качества драйверов. Вероятно сюда и приурочили выпуск Middle-решений. Впрочем, это все догадки и предположения.

Читайте также:  Какая плата для процессора fx 9590

Факт в том, что Geforce 8600 (G84) и Geforce 8500 (G86) вышли. Посмотрите на коллаж сверху. По нему уже можно понять, что 8600 — это одна четверть от 8800. Разумеется, не имеется в виду размеры карт 🙂 Иначе получилось бы, что длина карты 8600 GTS всего 7 см.. 🙂 Речь идет о технологиях и процессорных возможностях. Ну посмотрите сами: потоковых процессоров у 8800 — 128, в тут — 32. Число текстурников там 32, а тут 16 (и то под вопросом, тесты показывают что их 8). Шина: у 8800 — 384 бит, у 8600 — 128. И т.д.

Зачем так сильно урезали G80? Ведь явно будет нанесен очень сильный удар по производительности! И разрыв между младшим решением из Hi-End — 8800 GTS 320MB и старшим решением из Middle-End — 8600 GTS будет весьма велик по скорости и несопоставимо мал по стоимости. Однако это все нам еще предстоит проверить. Одно ясно: к таких карт огромный задел на падение цен, ибо что ядро, что сама плата, весьма дешевы в производстве. И еще одно ясно: снова будет засилие референс-карт. Эта практика выпуска всех видеокарт на одном заводе и потом раздача их партнерам переходит из Hi-End среды и в Middle.

Передаем слово Алексею Берилло, он расскажет обо всех новшествах в архитектуре:

Вот и произошел перевод решений среднего ценового уровня Nvidia на унифицированную графическую архитектуру, которого многие долго ждали. Хотя изначально этот переход произошел еще с появлением решения верхнего уровня — Geforce 8800, но оценить новую архитектуру смогли не все, большинство ждало спуска подобных архитектур в средний и бюджетный сегменты. Итак, сегодня мы познакомимся с первыми недорогими решениями Nvidia на базе унифицированной архитектуры G8x:

Перед прочтением данного материала мы рекомендуем внимательно ознакомиться с базовыми теоретическими материалами DX Current, DX Next и Longhorn, описывающими различные аспекты современных аппаратных ускорителей графики и архитектурные особенности продукции Nvidia и ATI(AMD).

Эти материалы достаточно точно спрогнозировали текущую ситуацию с архитектурами видеочипов, оправдались многие предположения о будущих решениях. Подробную информацию об унифицированной архитектуре Nvidia G8x на примере топового чипа можно найти в следующей статье:

Прошло достаточно много времени с анонса Nvidia Geforce 8800, а ответного решения от ATI(AMD) с унифицированной архитектурой так до сих пор и не последовало. И вот, когда до их объявления осталось не так много времени, Nvidia решила сделать еще один сильный рыночный ход, выпустив два новых чипа и несколько моделей среднего и нижнего уровней на их основе. Основное технологическое изменение — технология производства 80 нм (0.08 мкм), которая позволяет снизить себестоимость, особенно важную для недорогих продуктов. Все новые чипы являются урезанными версиями G80, призванными потеснить конкурентов в нижнем и среднем ценовых сегментах.

Архитектура новых чипов основана на уже известной нам архитектуре Geforce 8800 (G80). Чипы G84 и G86 включают в себя все преимущества G80, такие как унифицированная шейдерная архитектура, полная поддержка DirectX 10, качественные методы анизотропной фильтрации и новый алгоритм антиалиасинга CSAA с количеством сэмплов до шестнадцати. Теперь всё это есть и в нижнем и среднем ценовом диапазонах $89-229. И даже больше, некоторые блоки со времен G80 были доработаны в лучшую сторону.

Графический ускоритель Geforce 8600

  • Официальное название чипа Geforce 8600
  • Кодовое имя G84
  • Технология 80 нм
  • 289 миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10, в том числе и новой шейдерной модели — Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 128-бит шина памяти, два независимых контроллера шириной 64 бита
  • Частота ядра до 675 МГц (Geforce 8600 GTS)
  • ALU работают на более чем удвоенной частоте (1.45 ГГц для Geforce 8600 GTS)
  • 32 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
  • 16 текстурных блоков, поддержка FP16 и FP32 компонент в текстурах (внимание, характеристика не соответствует полученной на практике, см. результаты синтетических тестов)
  • 16 блоков билинейной фильтрации (по сравнению с G80 нет возможности бесплатной трилинейной фильтрации и более эффективной по скорости анизотропной фильтрации — см. синтетику)
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 2 широких блока ROP (8 пикселей) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 32 MSAA отсчетов (+ 32 Z) за такт, в режиме без цвета (Z only) — 64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Все интерфейсы (два RAMDAC, два Dual DVI, HDMI, HDTV) интегрированы на чип (в отличие от вынесенных на внешний дополнительный чип NVIO у Geforce 8800)

Первые карты на базе G84

Спецификации референсной карты Geforce 8600 GTS

  • Частота ядра 675 МГц
  • Частота универсальных процессоров 1450 МГц
  • Количество универсальных процессоров 32
  • Количество текстурных блоков — 16 (см. синтетику), блоков блендинга — 8
  • Эффективная частота памяти 2.0 ГГц (2*1000 МГц)
  • Тип памяти GDDR3
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 32.0 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 5.4 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.8 гигатекселя в сек.
  • Энергопотребление до 71 Вт
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Рекомендуемая цена $199-229

Спецификации референсной карты Geforce 8600 GT

  • Частота ядра 540 МГц
  • Частота универсальных процессоров 1180 МГц
  • Количество универсальных процессоров 32
  • Количество текстурных блоков — 16 (см. синтетику), блоков блендинга — 8
  • Эффективная частота памяти 1,4 ГГц (2*700 МГц)
  • Тип памяти GDDR3
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 22.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 4.3 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 8.6 гигатекселя в сек.
  • Энергопотребление до 43 Вт
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, опциональная поддержка HDCP
  • Рекомендуемая цена $149-159

Графический ускоритель Geforce 8500

  • Официальное название чипа Geforce 8500
  • Кодовое имя G86
  • Технология 80 нм
  • 210 миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10, в том числе и новой шейдерной модели — Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 128-бит шина памяти, два независимых контроллера шириной 64 бита
  • Частота ядра до 450 МГц (Geforce 8500 GT)
  • ALU работают на удвоенной частоте (900 МГц для Geforce 8500 GT)
  • 16 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит точности в рамках стандарта IEEE 754, MAD+MUL без потери тактов)
  • 8 текстурных блоков, поддержка FP16 и FP32 компонент в текстурах
  • 8 блоков билинейной фильтрации (по сравнению с G80, нет возможности бесплатной трилинейной фильтрации и более эффективной по скорости анизотропной фильтрации)
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 2 широких блока ROP (8 пикселей) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 32 MSAA отсчетов (+ 32 Z) за такт, в режиме без цвета (Z only) — 64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Все интерфейсы (два RAMDAC, два Dual DVI, HDMI, HDTV) интегрированы на чип (в отличие от вынесенных на внешний дополнительный чип NVIO у Geforce 8800)
Читайте также:  Кастомное разрешение экрана nvidia

Спецификации референсной карты Geforce 8500 GT

  • Частота ядра 450 МГц
  • Частота универсальных процессоров 900 МГц
  • Количество универсальных процессоров 16
  • Количество текстурных блоков — 8, блоков блендинга — 8
  • Эффективная частота памяти 800 МГц (2*400 МГц)
  • Тип памяти DDR2
  • Объем памяти 256/512 мегабайт
  • Пропускная способность памяти 12.8 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 3.6 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 3.6 гигатекселя в сек.
  • Энергопотребление до 40 Вт
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, опциональная поддержка HDCP
  • Рекомендуемая цена $89-129

Как видите, Geforce 8600 существует в двух вариантах — GTS и GT. Частоты первого — 675 и 1450 МГц для основной части ядра и шейдерных процессоров соответственно, а для второго эти цифры таковы: 540 и 1190 МГц. Частота видеопамяти у этих двух вариантов также отличается: 1000(2000) и 700(1400) МГц соответственно. Geforce 8600 GTS призван продолжать дело весьма успешных Geforce 6600 GT и Geforce 7600 GT, которые в свое время стали одними из самых массовых и удачных карт в этом ценовом диапазоне, а модель GT стоит в линейке чуть ниже.

В нижнем ценовом диапазоне новая продукция Nvidia представлена картой Geforce 8500 GT, чип которой еще сильнее урезан по всем параметрам. Возможно, на базе чипа G86 позднее будут выпущены и другие модели видеокарт, например, Geforce 8400 GS и Geforce 8300 GS, они могут появиться в виде продуктов для OEM, а не розничных. Технические характеристики последних (количество процессоров, блоков ROP/TMU, тактовые частоты) пока что неизвестны.

Архитектура

Уже по спецификациям видно, что G84 — это что-то среднее между одной четвертой и одной третьей частей флагмана линейки G80. С точки зрения количества универсальных процессоров получается четверть, а с точки зрения количества блоков ROP и контроллера памяти — треть. С текстурниками сложнее, это вроде бы не четверть, но и не половина, об этом мы поговорим ниже. G86, в свою очередь, вообще нечто интересное — по вычислительной мощности всего лишь 1/8 от G80, а по ROP — всё та же 1/3. Явно Nvidia не торопится спускать в low-end чипы, быстрые вычислительно.

Основной вопрос тут — а достаточно ли будет этой самой четвертинки и 1/8 для того, чтобы составить достойную конкуренцию нынешним решениям и будущим чипам AMD? Не слишком ли сильно урезали в Nvidia количество блоков? Причем, не сказать, чтобы по количеству транзисторов оба чипа были слишком маленькие… В G84 почти половина транзисторов G80, в G86 — почти треть. Похоже, что решение компромиссное, если бы они оставляли половину блоков G80, то чип был бы слишком дорогим в производстве, да и составлял бы успешную конкуренцию своим же Geforce 8800 GTS.

В ближайшем будущем, скорее всего, на основе технологии 65 нм можно будет сделать более производительные чипы для среднего и нижнего ценовых диапазонов, а сейчас пока что получилось так. Мы рассмотрим вопрос производительности новых чипов в синтетических и игровых тестах, но уже сейчас можно сказать, что G84 и G86 могут быть не слишком быстрыми из-за малого количества ALU, они, скорее всего, будут примерно наравне с текущими решениями схожей с ними цены.

На архитектуре G84 и G86 мы не будем останавливаться слишком подробно, изменений по сравнению с G80 тут немного, в силе остается всё сказанное в обзоре Geforce 8800, с поправкой на количественные характеристики. Но все же опишем основные моменты, которые стоят нашего внимания и приведем несколько слайдов, посвященных архитектурным спецификациям новых чипов.

Как вы помните, диаграмма чипа унифицированной архитектуры G80 выглядит так:

G80 состоит из восьми универсальных вычислительных блоков (шейдерных процессоров), Nvidia предпочитает говорить о 128 процессорах. Единица исполнения команд, судя по всему, это такой процессорный блок целиком, в котором сгруппированы 4 TMU и 16 ALU. Каждый из блоков в один момент может исполнять часть вершинного, пиксельного или геометрического шейдера над блоком из 32 пикселей, вершин или иных примитивов, также может заниматься физическими расчетами. У каждого процессора есть свой кэш первого уровня, в котором хранятся текстуры и другие данные. Кроме управляющего блока и вычислительных шейдерных процессоров присутствует шесть блоков ROP, исполняющих определение видимости, запись в буфер кадра и MSAA, сгруппированные c контроллерами памяти, очередями записи и кэшем второго уровня.

Эта архитектура способна масштабироваться в обе стороны, что и было сделано в новых решениях. Мы уже упоминали об этом красивом решении, реализующем основной плюс унифицированной архитектуры — автоматический баланс и высокий КПД использования имеющихся ресурсов в статье по Geforce 8800. Там же предполагалось, что решение среднего уровня будет состоять из половины вычислительных блоков, а решение на основе двух шейдерных процессоров и одного ROP станет бюджетным. К сожалению, если в Geforce 8800 было восемь процессоров, составляющих 32 TMU и 128 ALU, в новых чипах их количество урезали сильнее, чем мы предполагали изначально. Судя по всему, схема G84 выглядит так:

То есть, всё осталось неизменным, кроме количества блоков и контроллеров памяти. Есть небольшие изменения, связанные с текстурными блоками и заметные на этом рисунке, но об этом мы поговорим далее. Любопытно, куда ушло столько транзисторов, если всего лишь 32 процессора в G84 оставили? В G84 чуть ли не половина транзисторов, по сравнению с G80, при значительно сниженном числе каналов памяти, ROP и шейдерных процессоров. Да и у G86 транзисторов очень много, при всего лишь 16-ти процессорах…

Интересно также, насколько качественно в реальных приложениях будет балансироваться нагрузка между исполнением вершинных, пиксельных и геометрических шейдеров, ведь число универсальных исполнительных блоков стало теперь значительно меньше. Тем более, что сама по себе унифицированная архитектура ставит новые задачи перед разработчиками, при её использовании придётся думать о том, как эффективно использовать общую мощность между вершинными, пиксельными и геометрическими шейдерами. Приведем простой пример — упор в пиксельные расчёты. В этом случае увеличение нагрузки на вершинные блоки в традиционной архитектуре не приведет к падению производительности, а в унифицированной — вызовет изменение баланса и уменьшение количества ресурсов для пиксельных расчетов. Мы обязательно рассмотрим вопрос производительности, а сейчас продолжим исследование изменений в архитектуре G84 и G86.

Шейдерный процессор и TMU/ALU

Схема шейдерных блоков и оценка их пиковой вычислительной производительности G80 приводилась в соответствующей статье, для G84 и G86 схема не изменилась, а их производительность пересчитать несложно. ALU в чипах также работают на удвоенной частоте и они скалярные, что позволяет добиться высокого КПД. Никаких отличий нет и по функциональности, точность всех ALU составляет FP32, есть поддержка вычислений в целочисленном формате, а при реализации соблюден стандарт IEEE 754, важный для научных, статистических, экономических и других вычислений.

А вот текстурные модули по сравнению с примененными в G80 изменились, Nvidia уверяет, что в новых чипах были сделаны архитектурные изменения для увеличения производительности унифицированных процессоров. В G80 каждый текстурник мог вычислять четыре текстурных адреса и выполнять восемь операций текстурной фильтрации за такт. Утверждается, что в новых чипах первое число было увеличено вдвое, и он способен на большее в два раза количество текстурных выборок. То есть, текстурные модули G84 и G86 имеют следующую конфигурацию (для сравнения слева приведена схема блока G80):

Читайте также:  Все ноутбуки с gtx 580 видеокартами

По словам Nvidia, теперь каждый из блоков имеет восемь модулей адресации текстур (определения по координатам точного адреса для выборки) TA и ровно такое же количество модулей билинейной фильтрации (TF). У G80 было четыре модуля TA и восемь TF, что позволяло при сниженном расходе транзисторов обеспечить «бесплатную» трилинейную фильтрацию или вдвое снизить падение скорости при анизотропной фильтрации, что полезно именно для ускорителей верхнего уровня, где анизотропная фильтрации используется пользователями почти всегда. Мы проверим правильность этой информации в практической части, обязательно посмотрите анализ соответствующих синтетических тестов, так как они противоречат этим данным.

Вся остальная функциональность текстурных блоков одинакова, поддерживаются форматы текстур FP16/FP32 и др. Только если на G80 фильтрация FP16 текстур также была на полной скорости из-за удвоенного количества блоков фильтрации, в решениях среднего и нижнего уровней такого уже нет (опять же, при условии, если вышеуказанные изменения действительно имеются).

Блоки ROP, запись в буфер кадра, сглаживание

Блоки ROP, которых в G80 было шесть штук, а в новых чипах стало по два, не изменились:

Каждый из блоков обрабатывает по четыре пикселя (16 субпикселей), всего получается 8 пикселей за такт для цвета и Z. В режиме только Z обрабатывается в два раза большее количество сэмплов за один такт. При MSAA 16х чип может выдавать два пикселя за такт, при 4х — 8 и т.д. Как и в G80, есть полноценная поддержка FP32 и FP16 форматов буфера кадров совместно с антиалиасингом.

Поддерживается известный по Geforce 8800 новый метод сглаживания — Coverage Sampled Antialiasing (CSAA), который был подробно описан в соответствующем материале:

Вкратце, суть метода такова, что цвета отсчетов и глубина хранятся отдельно от информации об их местоположении, на один пиксель может приходиться по 16 отсчетов и всего 8 вычисленных значений глубины, что экономит пропускную способность и такты. CSAA позволяет обойтись передачей и хранением одного значения цвета или Z на каждый субпиксель, уточняя усредненное значение экранного пикселя за счёт более подробной информации о том, как этот пиксель перекрывает края треугольников. В итоге, новый метод позволяет получать режим сглаживания 16х, заметно более качественный чем MSAA 4х, с вычислительными затратами, сравнимыми с ним. А в редких случаях, в которых метод CSAA не работает, получается обычный MSAA меньшей степени, а не полное отсутствие антиалиасинга.

PureVideo HD

Переходим к наиболее интересным изменениям. Оказывается, в G84 и G86 есть нововведения, выгодно отличающие их даже от G80! Это касается встроенного видеопроцессора, который в новых чипах получил расширенную поддержку PureVideo HD. Заявлено, что эти чипы полностью разгружают центральный процессор системы при декодировании всех типов распространенных видеоданных, в том числе наиболее «тяжелого» формата H.264.

В G84 и G86 используется новая модель программируемого PureVideo HD видеопроцессора, более мощная, по сравнению с примененной в G80, и включающая так называемый BSP движок. Новый процессор поддерживает декодирование H.264, VC-1 и MPEG-2 форматов с разрешением до 1920×1080 и битрейтом до 30-40 Мбит/с, он выполняет всю работу по декодированию CABAC и CAVLC данных аппаратно, что позволяет воспроизводить все существующие HD-DVD и Blu-ray диски даже на средних по мощности одноядерных ПК.

Видеопроцессор в G84/G86 состоит из нескольких частей: сам Video Processor второго поколения (VP2), выполняющий задачи IDCT, компенсации движения и удаления артефактов блочности для MPEG2, VC-1 и H.264 форматов, поддерживающий аппаратное декодирование второго потока; поточный процессор (BSP), выполняющий задачи статистического декодирования CABAC и CAVLC для формата H.264, а это одни из самых трудоёмких расчетов; движок декодирования защищенных данных AES128, предназначение которого понятно из его названия — он занимается расшифровкой видеоданных, используемых в защите от копирования на Blu-ray и HD-DVD дисках. Вот так выглядят различия в степени аппаратной поддержки декодирования видео на разных видеочипах:

Голубым цветом выделены задачи, выполняемые видеочипом, а зелёным — центральным процессором. Как видите, если предыдущее поколение помогало процессору только в части задач, то новый видеопроцессор, применяемый в последних чипах, делает все задачи сам. Эффективность решений мы проверим в будущих материалах по исследованию эффективности аппаратного декодирования видео, Nvidia же приводит в материалах такие цифры: при использовании современного двухъядерного процессора и программного декодирования данных, воспроизведение дисков Blu-ray и HD-DVD съедает до 90-100% процессорного времени, при аппаратном декодировании на видеочипе прошлого поколения на той же системе — до 60-70%, а с новым движком, который они разработали для G84 и G86 — всего лишь 20%. Это, конечно, не похоже на заявленное полностью аппаратное декодирование, но все же на очень и очень эффективное.

На момент анонса, новые возможности, появившиеся в PureVideo HD, работают лишь в 32-битной версии Windows Vista, а поддержка PureVideo HD в Windows XP появится только летом. Что касается качества воспроизведения видео, постобработки, деинтерлейсинга и т.п., то с этим у Nvidia дела улучшились еще в Geforce 8800, а новые чипы ничем особенно не отличаются в этом плане.

CUDA, неигровые и физические расчеты

В статье по Geforce 8800 упоминалось, что увеличившаяся пиковая производительность плавающей арифметики у новых ускорителей и гибкость унифицированной шейдерной архитектуры, стали достаточны для расчета физики в игровых приложениях и даже более серьезных задач: математического и физического моделирования, экономических и статистических моделей и расчетов, распознавания образов, обработки изображений, научной графики и многого другого. Для этого был выпущен специальный API, ориентированный на вычисления, который удобен для адаптации и разработки программ, перекладывающих вычисления на GPU — CUDA (Compute Unified Device Architecture).

Подробнее о CUDA написано в статье о G80, мы остановимся на еще одном модном направлении в последнее время — поддержке физических расчетов на GPU. Nvidia называет подобную свою технологию Quantum Effects. Декларируется, что все видеочипы нового поколения, включая рассматриваемые сегодня G84 и G86, неплохо подходят для расчетов подобного рода, позволяя перенести часть нагрузки с CPU на GPU. В качестве конкретных примеров приводятся симуляции дыма, огня, взрывов, динамики волос и одежды, шерсти и жидкостей, и многого другого. Но пока что больше хочется написать о другом. О том, что пока нам показывают только картинки из тестовых приложений с большим количеством рассчитываемых видеочипами физических объектов, а играми с такой поддержкой даже пока и не пахнет.

Поддержка внешних интерфейсов

Как мы помним, в Geforce 8800 нас несколько удивило еще одно неожиданное новшество — дополнительный чип, поддерживающий вынесенные за пределы основного внешние интерфейсы. В случае топовых видеокарт этими задачами занимается отдельный чип под названием NVIO, в котором интегрированы: два 400 МГц RAMDAC, два Dual Link DVI (или LVDS), HDTV-Out. Уже тогда мы предполагали, что в среднем и нижнем сегментах отдельный внешний чип вряд ли сохранится, так и получилось на самом деле. В G84 и G86 поддержка всех указанных интерфейсов встроена в сам чип.

На Geforce 8600 GTS устанавливаются два Dual Link DVI-I выхода с поддержкой HDCP, это первая видеокарта на рынке с подобными возможностями (HDCP и Dual Link совместно). Что касается HDMI, поддержка этого разъема аппаратно реализована полностью и может быть выполнена производителями на картах специального дизайна. А вот у Geforce 8600 GT и 8500 GT поддержка HDCP и HDMI опциональная, но они вполне могут быть реализованы отдельными производителями в своей продукции.

Ну а теперь переходим к практической части исследования, в которой мы узнаем, не слишком ли сильно Nvidia урезала возможности своих новых чипов, не скажется ли такое значительное уменьшение количества исполнительных блоков на производительности, по сравнению с продуктами конкурентов и своих же решений предыдущего поколения.

Источник