පින්තූර ස්නායු ජාලය. ස්නායුක ජාල භාවිතයෙන් රූප හැඩගැන්වීම: ගුප්තවාදයක් නැත, දිවුරුම් දීම පමණි

නිවස / හිටපු

වඩාත් සාමාන්‍ය ඡායාරූපවල, සහ සම්පූර්ණයෙන්ම වෙන්කර හඳුනාගත නොහැකි ආයතන රාශියක් දිස්වේ. බොහෝ විට කිසියම් හේතුවක් නිසා බල්ලන්. ගූගල් වෙතින් ඩීප්ඩ්‍රීම් දියත් කළ 2015 ජුනි මාසයේදී එවැනි පින්තූර අන්තර්ජාලය පිරවීමට පටන් ගත්තේය - පළමු එකක් විවෘත සේවාස්නායුක ජාල මත පදනම්ව සහ රූප සැකසීම සඳහා නිර්මාණය කර ඇත.

එය ආසන්න වශයෙන් මේ ආකාරයට සිදු වේ: ඇල්ගොරිතම ඡායාරූප විශ්ලේෂණය කරයි, සමහර හුරුපුරුදු වස්තූන් මතක් කර දෙන කොටස් සොයා ගනී - සහ මෙම දත්ත වලට අනුකූලව රූපය විකෘති කරයි.

පළමුව, මෙම ව්යාපෘතිය විවෘත මූලාශ්රයක් ලෙස සකස් කරන ලද අතර, එම මූලධර්ම මත නිර්මාණය කරන ලද මාර්ගගත සේවාවන් අන්තර්ජාලයේ දර්ශනය විය. වඩාත්ම පහසු සහ ජනප්‍රිය එකක් වන්නේ ගැඹුරු සිහින උත්පාදක ය: මෙහි කුඩා ඡායාරූපයක් සැකසීමට ගත වන්නේ තත්පර 15 ක් පමණි (මීට පෙර, පරිශීලකයින්ට පැයකට වඩා බලා සිටීමට සිදු විය).

ස්නායු ජාල එවැනි රූප නිර්මාණය කිරීමට ඉගෙන ගන්නේ කෙසේද? මාර්ගය වන විට, ඔවුන් එසේ හඳුන්වන්නේ ඇයි?

ඔවුන්ගේ නිර්මාණයේ ස්නායුක ජාල ජීව ජීවියෙකුගේ සැබෑ ස්නායු ජාල අනුකරණය කරයි, නමුත් ඔවුන් මෙය කරන්නේ ගණිතමය ඇල්ගොරිතම ආධාරයෙන්. මූලික ව්‍යුහයක් නිර්මාණය කිරීමෙන් පසු, ඔබට යන්ත්‍ර ඉගෙනීමේ ක්‍රම භාවිතයෙන් එය පුහුණු කළ හැකිය. අපි රටා හඳුනාගැනීම ගැන කතා කරන්නේ නම්, ස්නායු ජාලය හරහා පින්තූර දහස් ගණනක් ගමන් කළ යුතුය. ස්නායු ජාලයේ කාර්යය වෙනස් නම්, පුහුණු අභ්යාස වෙනස් වේ.

චෙස් ක්‍රීඩා කිරීම සඳහා ඇල්ගොරිතම, උදාහරණයක් ලෙස, විශ්ලේෂණය කරන්න චෙස් ක්රීඩා. එම මාර්ගය ඔස්සේම, Google හි DeepMind හි AlphaGo ඇල්ගොරිතම Go හි චීන ක්‍රීඩාවට ඇතුළත් විය - එය චෙස් වලට වඩා බොහෝ සංකීර්ණ සහ රේඛීය නොවන බැවින් එය ඉදිරි ගමනක් ලෙස ප්‍රශංසා කරනු ලැබීය.

ඔබට සරල කළ ස්නායුක ජාල ආකෘතියක් සමඟ සෙල්ලම් කළ හැකි අතර එහි මූලධර්ම හොඳින් අවබෝධ කර ගත හැකිය.

YouTube සතුව තේරුම්ගත හැකි අතින් අඳින ලද මාලාවක් ද ඇත රෝලර්ස්නායුක ජාල ක්‍රියා කරන ආකාරය ගැන.

තවත් ජනප්රිය සේවාවක් වන්නේ ඩ්රීම්ස්කෝප්, බල්ලන් ගැන සිහින පමණක් නොව, විවිධ සිතුවම් විලාසිතා අනුකරණය කළ හැකිය. මෙහි රූප සැකසීමද ඉතා සරල සහ වේගවත් වේ (තත්පර 30ක් පමණ).

පෙනෙන විදිහට, සේවාවේ ඇල්ගොරිතම කොටස අප දැනටමත් සාකච්ඡා කර ඇති ස්නායු ශෛලීය වැඩසටහනේ වෙනස් කිරීමකි.

වඩාත් මෑතකදී, කළු සහ සුදු රූප යථාර්ථවාදී ලෙස පින්තාරු කරන වැඩසටහනක් දර්ශනය විය. පෙර සංස්කරණ වලදී, සමාන වැඩසටහන් වඩා අඩුවෙන් ක්‍රියාත්මක වූ අතර, අවම වශයෙන් පුද්ගලයන්ගෙන් 20% කටවත් සැබෑ පින්තූරයක් සහ පරිගණක පාට එකක් අතර වෙනස හඳුනාගත නොහැකි නම් එය විශිෂ්ට ජයග්‍රහණයක් ලෙස සලකනු ලැබීය.

එපමණක් නොව, මෙහි වර්ණ ගැන්වීම විනාඩි 1 ක් පමණ ගත වේ.

එම සංවර්ධන සමාගම පින්තූරවල හඳුනා ගන්නා සේවාවක් ද දියත් කළේය විවිධ වර්ගවස්තූන්.

මෙම සේවාවන් හුදෙක් විනෝදජනක විනෝදාස්වාදයක් ලෙස පෙනේ, නමුත් ඇත්ත වශයෙන්ම, සෑම දෙයක්ම වඩා රසවත් ය. නව තාක්ෂණයන් මානව කලාකරුවන්ගේ භාවිතයට ඇතුළු වන අතර කලාව පිළිබඳ අපගේ අවබෝධය වෙනස් කරයි. සමහරවිට ඉක්මනින් මිනිසුන්ට නිර්මාණශීලීත්වයේ ක්ෂේත්රයේ යන්ත්ර සමඟ තරඟ කිරීමට සිදුවනු ඇත.

රටා හඳුනාගැනීමේ ඇල්ගොරිතම ඉගැන්වීම AI සංවර්ධකයින් දිගු කලක් තිස්සේ අරගල කරන කාර්යයකි. එමනිසා, පැරණි ඡායාරූප වර්ණවත් කරන සහ අහසේ බල්ලන් ඇද ගන්නා වැඩසටහන් විශාල හා කුතුහලය දනවන ක්‍රියාවලියක කොටසක් ලෙස සැලකිය හැකිය.

සුභ පැතුම්, හබ්ර්! විවිධ සඳහා ඡායාරූප හැඩගැන්වීමේ තේමාව බව ඔබ නිසැකවම දැක ඇත කලාත්මක ශෛලීන්මෙම ඔබේ අන්තර්ජාලය තුළ සක්‍රියව සාකච්ඡා කෙරේ. මෙම සියලු ජනප්‍රිය ලිපි කියවන විට, මෙම යෙදුම්වල ආවරණය යටතේ මැජික් ක්‍රියාත්මක වන බව ඔබට සිතෙනු ඇත, සහ ස්නායුක ජාලය ඇත්ත වශයෙන්ම මනඃකල්පිත හා මුල සිට රූපය නැවත අඳිනවා. අපගේ කණ්ඩායමට සමාන කාර්යයකට මුහුණ දීමට සිදු විය: අභ්‍යන්තර ආයතනික හැකතන් එකක කොටසක් ලෙස, අපි වීඩියෝ මෝස්තරයක් සෑදුවෙමු. ඡායාරූප සඳහා දැනටමත් යෙදුමක් තිබුණි. මෙම ලිපියෙන්, අපි ජාලය පින්තූර "නැවත අඳින" ආකාරය දෙස බලමු, සහ එය කළ හැකි ලිපි දෙස බලමු. මෙම ද්‍රව්‍යය කියවීමට පෙර සහ සාමාන්‍යයෙන් සංක්‍රමණික ස්නායුක ජාල වල මූලික කරුණු සමඟ ඔබ අවසන් සටහන සමඟ ඔබව හුරු කරවන ලෙස මම නිර්දේශ කරමි. ඔබට සූත්‍ර කිහිපයක්, සමහර කේතයන් (මම Theano සහ Lasagne මත උදාහරණ දෙන්නෙමි), මෙන්ම පින්තූර රාශියක් සොයා ගනු ඇත. මෙම තනතුර ගොඩනගා ඇත කාලානුක්රමික අනුපිළිවෙලලිපිවල පෙනුම සහ, ඒ අනුව, අදහස් ම. සමහර වෙලාවට අපේ මෑත කාලීන අත්දැකීම් එක්ක මම ඒක දියාරු කරනවා. මෙන්න අවධානය සඳහා අපායේ පිරිමි ළමයෙක්.

Convolutional Networks දෘශ්‍යකරණය සහ අවබෝධ කර ගැනීම (2013 නොවැම්බර් 28)

පළමුවෙන්ම, ස්නායුක ජාලයක් යනු කළු පෙට්ටියක් නොව තරමක් අර්ථකථනය කළ හැකි දෙයක් බව කතුවරුන්ට පෙන්වීමට හැකි වූ ලිපිය සඳහන් කිරීම වටී (මාර්ගය වන විට, අද මෙය පරිගණකය සඳහා විවර්තන ජාල ගැන පමණක් පැවසිය නොහැක. දැක්ම). සැඟවුණු ස්තර නියුරෝන සක්‍රීය කිරීම අර්ථ නිරූපණය කරන්නේ කෙසේදැයි ඉගෙන ගැනීමට කතුවරුන් තීරණය කළහ, මේ සඳහා ඔවුන් මීට වසර කිහිපයකට පෙර යෝජනා කරන ලද deconvolutional ස්නායු ජාලය (deconvnet) භාවිතා කළහ (මාර්ගය වන විට, මෙම ප්‍රකාශනයේ කතුවරුන් වන එම Seiler සහ Fergus විසින්. හොඳින්). විසංයෝජනීය ජාලයක් යනු ප්‍රතිලෝම අනුපිළිවෙලෙහි යෙදෙන කැළඹීම් සහ සංචිත සහිත එකම ජාලයකි. deconvnet හි මුල් කෘතිය රූප උත්පාදනය කිරීමට අධීක්‍ෂණය නොකළ ඉගෙනුම් මාදිලියක ජාලය භාවිතා කළේය. මෙවර, කතුවරුන් එය ජාලය හරහා ඉදිරියට යාමෙන් පසු ලබාගත් විශේෂාංග වලින් මුල් රූපයට ප්‍රතිලෝම අවසරයක් සඳහා එය භාවිතා කළහ. ප්රතිඵලය වන්නේ නියුරෝන මත මෙම සක්රිය කිරීමට හේතු වූ සංඥාවක් ලෙස අර්ථ දැක්විය හැකි රූපයකි. ස්වාභාවිකවම, ප්රශ්නය පැනනගින්නේ: සංකෝචනය සහ රේඛීය නොවන බව හරහා ආපසු හැරවීම සිදු කරන්නේ කෙසේද? ඊටත් වඩා උපරිම සංචිතය හරහා, මෙය නිසැකවම ප්‍රතිලෝම මෙහෙයුමක් නොවේ. අපි සියලු සංරචක තුන දෙස බලමු.

ප්‍රතිලෝම ReLu

Convolutional ජාල වල, සක්රිය කිරීමේ කාර්යය බොහෝ විට භාවිතා වේ ReLu(x) = උපරිම(0, x), ස්තරය මත ඇති සියලුම සක්රිය කිරීම් ඍණාත්මක නොවන බවට පත් කරයි. ඒ අනුව, රේඛීය නොවන බව හරහා ආපසු ගමන් කරන විට, ඍණාත්මක නොවන ප්රතිඵල ලබා ගැනීම ද අවශ්ය වේ. මේ සඳහා, කතුවරුන් එකම ReLu භාවිතා කිරීමට යෝජනා කරයි. Theano ගෘහ නිර්මාණ ශිල්පයේ දෘෂ්ටි කෝණයකින්, මෙහෙයුම් ශ්‍රේණියේ ශ්‍රිතය නැවත ක්‍රියාත්මක කිරීම අවශ්‍ය වේ (අසීමිත වටිනා සටහන් පොත Lasagna වට්ටෝරු වල ඇත, එතැන් සිට ඔබ ModifiedBackprop පන්තිය කුමක්ද යන්න පිළිබඳ විස්තර ලබා ගනී).

Class ZeilerBackprop(ModifiedBackprop): def grad(self, inputs, out_grads): (inp,) = inputs (grd,) = out_grads #return (grd * (grd > 0).astype(inp.dtype),) # පැහැදිලිවම නිවැරදි කරන්න ආපසු (self.nonlinearity(grd),) # ලබා දී ඇති රේඛීය නොවන බව භාවිතා කරන්න

ආපසු හැරවීම

මෙන්න එය ටිකක් සංකීර්ණයි, නමුත් සෑම දෙයක්ම තාර්කික ය: එය එකම convolution kernel හි transposed අනුවාදය යෙදීම ප්රමාණවත් වේ, නමුත් ඉදිරියට pass කිරීමේදී භාවිතා කරන ලද පෙර ස්ථරය වෙනුවට Reverse ReLu වෙතින් ප්රතිදානයන් වෙත. නමුත් වචන වලින් එය එතරම් පැහැදිලි නැතැයි මම බිය වෙමි, අපි මෙම ක්‍රියා පටිපාටියේ දෘශ්‍යකරණය දෙස බලමු (ඔබට කැළඹීම්වල ඊටත් වඩා දෘශ්‍යකරණයන් සොයාගත හැකිය).

Convolution when stride=1

Convolution when stride=1	ප්රතිලෝම අනුවාදය

Convolution when stride=2

Convolution when stride=2	ප්රතිලෝම අනුවාදය

ප්‍රතිලෝම සංචිතය

මෙම මෙහෙයුම (පෙර මෙන් නොව) සාමාන්යයෙන් ආපසු හැරවිය නොහැක. නමුත් අපි තවමත් ප්‍රතිලෝම සමත්වීමේදී යම් ආකාරයකින් උපරිමය පසුකර යාමට කැමැත්තෙමු. මෙය සිදු කිරීම සඳහා, කතුවරුන් සෘජු අවසරය (උපරිම ස්ථාන ස්විචයන්) තුළදී උපරිම වූ ස්ථානයේ සිතියමක් භාවිතා කිරීමට යෝජනා කරයි. ප්‍රතිලෝම පසුකිරීමේදී, මුල් සංඥාවේ ව්‍යුහය ආසන්න වශයෙන් සංරක්ෂණය වන පරිදි ආදාන සංඥාව unpooling බවට පරිවර්තනය වේ, එය මෙහි විස්තර කිරීමට වඩා බැලීම ඇත්තෙන්ම පහසුය.

ප්රතිඵලය

දෘශ්‍යකරණ ඇල්ගොරිතම ඉතා සරල ය:

කෙළින්ම පාස් කරන්න.
අපි උනන්දුවක් දක්වන ස්ථරය තෝරන්න.
න්යුරෝන එකක් හෝ කිහිපයක් සක්රිය කිරීම සවි කර ඉතිරිය නැවත සකසන්න.
නිගමනයක් කරන්න.

පහත රූපයේ ඇති සෑම අළු චතුරශ්‍රයක්ම පෙරහනක (එය කැළඹීම සඳහා යොදනු ලැබේ) හෝ තනි නියුරෝනයක බර දෘෂ්‍යකරණයට අනුරූප වේ. වර්ණ පින්තූරයයනු අනුරූප නියුරෝනය සක්රිය කරන මුල් රූපයේ කොටසයි. පැහැදිලිකම සඳහා, එක් ස්ථරයක් තුළ ඇති නියුරෝන කාණ්ඩගත කර ඇත තේමාත්මක කණ්ඩායම්. පොදුවේ ගත් කල, හබල් සහ වීසල් ඔවුන්ට ප්‍රදානය කරන ලද දෘශ්‍ය පද්ධතියේ ව්‍යුහය පිළිබඳ ඔවුන්ගේ වැඩ වලදී ලියා ඇති දේ ස්නායුක ජාලය හරියටම ඉගෙන ගන්නා බව හදිසියේම පෙනී ගියේය. නොබෙල් ත්යාගය 1981 දී. මෙම ලිපියට ස්තූතිවන්ත වන්නට, එක් එක් ස්තරයකදී සංවර්ධිත ස්නායුක ජාලයක් ඉගෙන ගන්නා දේ පිළිබඳ දෘශ්‍ය නිරූපණයක් අපට ලැබුණි. ජනනය කරන ලද රූපයේ අන්තර්ගතය හැසිරවීමට පසුව ඉඩ සලසන මෙම දැනුම එයයි, නමුත් මෙය තවමත් බොහෝ දුරයි, ඉදිරි වසර කිහිපය තුළ ස්නායුක ජාල වල "trepanation" ක්‍රම වැඩි දියුණු කිරීමට ගොස් ඇත. මීට අමතරව, ලිපියේ කතුවරුන් විසින් සාක්ෂාත් කර ගැනීම සඳහා විකෘති ස්නායු ජාලයක ගෘහ නිර්මාණ ශිල්පය වඩාත් හොඳින් ගොඩනගා ගන්නේ කෙසේද යන්න විශ්ලේෂණය කිරීමට ක්‍රමයක් යෝජනා කළහ. හොඳම ප්රතිඵල(කෙසේ වෙතත්, ඔවුන් ImageNet 2013 දිනා ගත්තේ නැත, නමුත් ඉහළට පැමිණියේය; UPD: ඔවුන් දිනූ බව පෙනී යයි, Clarifai යනු ඔවුන් කුමක් ද යන්නයි).

විශේෂාංග දෘශ්‍යකරණය

deconvnet භාවිතයෙන් සක්‍රිය කිරීම් දෘශ්‍යකරණය කිරීමේ උදාහරණයක් මෙන්න, අද මෙම ප්‍රති result ලය දැනටමත් එසේ පෙනේ, නමුත් පසුව එය ඉදිරි ගමනක් විය.

deconvnet භාවිතා කරන Saliency සිතියම්

ගැඹුරු අභ්‍යන්තර වින්‍යාසගත ජාල: රූප වර්ගීකරණ ආකෘති සහ සාලියසි සිතියම් දෘශ්‍යකරණය (2014 අප්‍රේල් 19)

මෙම ලිපිය කැපවී ඇත්තේ සංවෘත ස්නායුක ජාලයක අඩංගු දැනුම දෘශ්‍යකරණ ක්‍රම අධ්‍යයනය කිරීම සඳහා ය. කතුවරුන් ශ්‍රේණිගත සම්භවය මත පදනම්ව දෘශ්‍යකරණ ක්‍රම දෙකක් යෝජනා කරයි.

පන්ති ආදර්ශ දෘශ්‍යකරණය

එබැවින්, යම් පන්ති ගණනකට වර්ගීකරණ ගැටළුවක් විසඳීමට පුහුණු වූ ස්නායුක ජාලයක් අප සතුව ඇතැයි සිතන්න. පන්තියට අනුරූප වන ප්රතිදාන නියුරෝනයේ ක්රියාකාරී අගය ලෙස දක්වන්න c. එවිට පහත ප්‍රශස්තිකරණ ගැටලුව අපට තෝරාගත් පන්තිය උපරිම කරන රූපය හරියටම ලබා දෙයි:

මෙම කාර්යය Theano භාවිතයෙන් විසඳීමට පහසුය. සාමාන්‍යයෙන් අපි ආකෘතියේ පරාමිතිවල ව්‍යුත්පන්නය ගැනීමට රාමුවෙන් ඉල්ලා සිටිමු, නමුත් මෙවර අපි උපකල්පනය කරන්නේ පරාමිති සවි කර ඇති අතර ව්‍යුත්පන්නය ආදාන රූපයෙන් ලබා ගන්නා බවයි. පහත ශ්‍රිතය මඟින් ප්‍රතිදාන ස්ථරයේ උපරිම අගය තෝරන අතර ආදාන රූපයට අදාළව ව්‍යුත්පන්නය ගණනය කරන ශ්‍රිතයක් ලබා දෙයි.

def compile_saliency_function(net): """ ලබා දී ඇති කුඩා ආදාන රූප සඳහා ලවණතා සිතියම් සහ පුරෝකථනය කළ පන්ති ගණනය කිරීමට ශ්‍රිතයක් සම්පාදනය කරයි. """ inp = net["input"].input_var outp = lasagne.layers.get_output(net ["fc8"], deterministic=True) max_outp = T.max(outp, axis=1) saliency = theano.grad(max_outp.sum(), wrt=inp) max_class = T.argmax(outp, axis=1) return theano.function(, )

ඔබ අන්තර්ජාලයේ සුනඛයන්ගේ අමුතු පින්තූර දැක ඇති - DeepDream. මුල් ලිපියේ, තෝරාගත් පන්තිය උපරිම කරන රූප උත්පාදනය කිරීමට කතුවරුන් පහත ක්‍රියාවලිය භාවිතා කරයි:

ආරම්භක රූපය බිංදු සමඟ ආරම්භ කරන්න.
මෙම රූපයෙන් ව්‍යුත්පන්නයේ අගය ගණනය කරන්න.
ව්‍යුත්පන්නයෙන් ලැබෙන රූපය එයට එකතු කිරීමෙන් රූපය වෙනස් කරන්න.
පියවර 2 වෙත ආපසු යන්න හෝ ලූපයෙන් පිටවන්න.

ප්‍රතිඵලයක් ලෙස ලැබෙන රූප මෙසේය.

ඔබ පළමු රූපය ආරම්භ කරන්නේ නම් සැබෑ ඡායාරූපයසහ එම ක්‍රියාවලියම ක්‍රියාත්මක කරන්නද? නමුත් සෑම පුනරාවර්තනයකදීම අපි අහඹු පන්තියක් තෝරාගෙන, ඉතිරිය ශුන්‍යයට සකසා ව්‍යුත්පන්නයේ අගය ගණනය කරමු, එවිට අපට එවැනි ගැඹුරු සිහිනයක් ලැබේ.

අවවාදයයි 60 mb

මෙතරම් සුනඛ මුහුණු සහ ඇස් ඇත්තේ ඇයි? එය සරලයි: පන්ති 1000 කින් රූප දැලෙහි සුනඛයන් 200 ක් පමණ ඇත, ඔවුන්ට ඇස් ඇත. ඒ වගේම මිනිස්සු ඉන්න ගොඩක් පන්ති.

Class Saliency උපුටා ගැනීම

මෙම ක්‍රියාවලිය සැබෑ ඡායාරූපයකින් ආරම්භ කර, පළමු පුනරාවර්තනයෙන් පසුව නතර කර ව්‍යුත්පන්නයේ අගය ඇඳීමෙන් පසු, අපට එවැනි රූපයක් ලැබෙනු ඇත, එය මුල් එකට එකතු කිරීමෙන්, අපි තෝරාගත් පන්තියේ සක්‍රීය කිරීමේ අගය වැඩි කරන්නෙමු.

ව්‍යුත්පන්න භාවිතා කරමින් සාලියසි සිතියම්

නැවතත්, ප්රතිඵලය "එසේ-එසේ" වේ. මෙය සක්‍රිය කිරීම් දෘශ්‍යමාන කිරීමට නව ක්‍රමයක් බව සැලකිල්ලට ගැනීම වැදගත්ය (අවසාන ස්ථරයේ නොව, සාමාන්‍යයෙන් ජාලයේ ඕනෑම ස්ථරයක සක්‍රිය අගයන් සවි කිරීමෙන් සහ ව්‍යුත්පන්නයට අදාළව ව්‍යුත්පන්නය ගැනීමෙන් අපට බාධාවක් නැත. ආදාන රූපය). මීළඟ ලිපියෙන් පෙර ප්‍රවේශයන් දෙකම ඒකාබද්ධ කර විලාස හුවමාරුව සකසන්නේ කෙසේද යන්න පිළිබඳ මෙවලමක් අපට ලබා දෙනු ඇත, එය පසුව විස්තර කෙරේ.

සරල බව සඳහා උත්සාහ කිරීම: සියලු සංකල්පමය ජාලය (13 අප්‍රේල් 2015)

මෙම ලිපිය සාමාන්‍යයෙන් දෘශ්‍යකරණය ගැන නොවේ, නමුත් විශාල ප්‍රගතියක් සහිත සංචිතයක් සමඟ සංචිතයක් ප්‍රතිස්ථාපනය කිරීම ගුණාත්මකභාවය නැතිවීමට හේතු නොවේ. නමුත් ඔවුන්ගේ පර්යේෂණවල අතුරු ඵලයක් ලෙස, කතුවරුන් විශේෂාංග දෘශ්‍යමාන කිරීමේ නව ක්‍රමයක් යෝජනා කළ අතර, එය ඔවුන් තවත් බොහෝ දේ සඳහා යොදා ගත්හ. නිවැරදි විශ්ලේෂණයආකෘතිය ඉගෙන ගන්නා දේ. ඔවුන්ගේ අදහස පහත පරිදි වේ: අපි හුදෙක් ව්‍යුත්පන්නය ගතහොත්, විසංයෝජනය අතරතුර, ආදාන රූපයේ තිබූ එම විශේෂාංග ආපසු නොයනු ඇත. ශුන්යයට වඩා අඩුය(ආදාන රූපයට ReLu යෙදීම). ප්‍රචාරණය කරන ලද පසුපස රූපයේ negative ණ අගයන් දිස්වන බවට මෙය හේතු වේ. අනෙක් අතට, ඔබ deconvnet භාවිතා කරන්නේ නම්, ReLu හි ව්‍යුත්පන්නයෙන් තවත් ReLu එකක් ගනු ලැබේ - මෙය ඔබට සෘණ අගයන් මඟ හැරීමට ඉඩ නොදේ, නමුත් ඔබ දුටු පරිදි, ප්‍රති result ලය "ඉතින්" වේ. නමුත් අපි මෙම ක්රම දෙක ඒකාබද්ධ කළහොත් කුමක් කළ යුතුද?

class GuidedBackprop(ModifiedBackprop): def grad(self, inputs, out_grads): (inp,) = inputs (grd,) = out_grads dtype = inp.dtype return (grd * (inp > 0).astype(dtype) * (grd > 0).astype(dtype),)

එවිට ඔබට සම්පූර්ණයෙන්ම පිරිසිදු හා අර්ථකථනය කළ හැකි රූපයක් ලැබේ.

මාර්ගෝපදේශක පසුබිම් ප්‍රචාරණය භාවිතා කරමින් සාලියසි සිතියම්

ගැඹුරට යන්න

දැන් අපි සිතමු, මෙය අපට ලබා දෙන්නේ කුමක්ද? සෑම පරිවර්තනීය ස්ථරයක්ම ආදානයක් ලෙස ත්‍රිමාණ ආතතීන් ලබා ගන්නා ශ්‍රිතයක් වන අතර ප්‍රතිදානයක් ලෙස ත්‍රිමාණ ආතතීන් නිපදවන ශ්‍රිතයක් බව මම ඔබට මතක් කරමි. ඈ x ඩබ්ලිව් x h; ඈ epth යනු ස්ථරයේ ඇති නියුරෝන ගණනයි, ඒ සෑම එකක්ම ප්‍රමාණයෙන් විශේෂාංග සිතියමක් ජනනය කරයි ඩබ්ලිව් igth x hඅට.

VGG-19 ජාලයේ පහත අත්හදා බැලීම උත්සාහ කරමු:

conv1_2

ඔව්, ඔබට කිසිවක් නොපෙනේ, මන්ද. ප්‍රතිග්‍රාහක ප්‍රදේශය ඉතා කුඩා ය, මෙය පිළිවෙලින් දෙවන සංකලනය 3x3 වේ, මුළු ප්‍රදේශය 5x5 වේ. නමුත් විශාලනය කිරීමේදී අපට පෙනෙන්නේ මෙම විශේෂාංගය අනුක්‍රමණ අනාවරකයක් පමණක් බවයි.

conv3_3

conv4_3

conv5_3

සංචිතය5

දැන් සිතන්න, තහඩුවට ඉහළින් ඇති උපරිමය වෙනුවට, අපි ආදාන රූපයට ඉහළින් තහඩුවේ සියලුම මූලද්‍රව්‍යවල එකතුවේ අගයේ ව්‍යුත්පන්නය ගනිමු. එවිට පැහැදිලිවම නියුරෝන සමූහයේ ප්‍රතිග්‍රාහක ප්‍රදේශය සම්පූර්ණ ආදාන රූපය ආවරණය කරයි. මුල් ස්ථර සඳහා, අපි දීප්තිමත් සිතියම් දකිනු ඇත, ඒවායින් වර්ණ අනාවරක, පසුව අනුක්‍රම, පසුව මායිම් සහ යනාදිය වඩාත් සංකීර්ණ රටා බව අපි නිගමනය කරමු. ස්තරය ගැඹුරු වන තරමට ඩිමර් රූපය ලබා ගනී. ගැඹුරු ස්ථරවලට ඒවා හඳුනා ගන්නා වඩාත් සංකීර්ණ රටාවක් ඇති බවත්, සංකීර්ණ රටාවක් සරල එකකට වඩා අඩුවෙන් දිස්වන බවත්, එබැවින් සක්‍රීය කිරීමේ සිතියම අඳුරු වන බවත් මෙය පැහැදිලි කරයි. පළමු ආකාරය සංකීර්ණ රටා සහිත ස්ථර තේරුම් ගැනීම සඳහා සුදුසු වන අතර, දෙවන ක්රමය සරල ඒවා සඳහා සුදුසු වේ.

conv1_1

conv2_2

conv4_3

ඔබට පින්තූර කිහිපයක් සඳහා සක්‍රිය කිරීම් පිළිබඳ වඩාත් සම්පූර්ණ දත්ත සමුදායක් බාගත කළ හැකිය.

කලාත්මක ශෛලියේ ස්නායු ඇල්ගොරිතමයක් (2 සැප්තැම්බර් 2015)

ඉතින්, ස්නායුක ජාලයේ පළමු සාර්ථක ට්‍රෙපනේෂන් සිට වසර කිහිපයක් ගත වී ඇත. අපි (මනුෂ්යත්වයේ අර්ථයෙන්) අපේ අතේ ඇත බලවත් මෙවලමක්, එය ඔබට ස්නායුක ජාලය ඉගෙන ගන්නා දේ තේරුම් ගැනීමට ඉඩ සලසයි, එසේම අප ඉගෙන ගැනීමට අකමැති දේ ඉවත් කරයි. මෙම ලිපියේ කතුවරුන් ඔබට එක් රූපයක් උත්පාදනය කිරීමට ඉඩ සලසන ක්රමයක් සංවර්ධනය කරයි සමාන සිතියමසමහර ඉලක්කගත රූපයක් මත සක්රිය කිරීම්, සහ සමහර විට එකකට වඩා වැඩි - මෙය මෝස්තරයේ පදනම වේ. අපි ආදානයට සුදු ඝෝෂාව පෝෂණය කරන අතර, ගැඹුරු සිහිනයක මෙන් සමාන පුනරාවර්තන ක්‍රියාවලියකදී, අපි මෙම රූපය ඉලක්කගත රූපයට සමාන වන විශේෂාංග සිතියම් වෙත ගෙන එන්නෙමු.

අන්තර්ගතය නැතිවීම

දැනටමත් සඳහන් කර ඇති පරිදි, ස්නායුක ජාලයේ සෑම ස්ථරයක්ම යම් මානයක ත්රිමාණ ආතන්යයක් නිපදවයි.

නිමැවුම නිරූපනය කරමු මමලෙස ආදානයෙන් වන ස්ථරය. එවිට අපි ආදාන රූපය අතර ඇති අවශේෂවල බරිත එකතුව අවම කළහොත් සහ අපි අපේක්ෂා කරන යම් රූපයක් c, එවිට ඔබට අවශ්‍ය දේ හරියටම ලැබේ. සමහර විට.

මෙම ලිපිය සමඟ අත්හදා බැලීම සඳහා, ඔබට මෙම ඉන්ද්‍රජාලික ලැප්ටොප් පරිගණකය භාවිතා කළ හැකිය, එහිදී ගණනය කිරීම් සිදු වේ (GPU සහ CPU යන දෙකම). ස්නායුක ජාලයේ ලක්ෂණ සහ පිරිවැය ශ්‍රිතයේ අගය ගණනය කිරීමට GPU භාවිතා කරයි. Theano වෛෂයික ශ්‍රිතයේ අනුක්‍රමය ගණනය කළ හැකි ශ්‍රිතයක් නිපදවයි eval_gradආදාන රූපය මගින් x. මෙය පසුව lbfgs වෙත පෝෂණය වන අතර පුනරාවර්තන ක්රියාවලිය ආරම්භ වේ.

# ශබ්ද රූපයක් ජනනය කරන ලද_image.set_value(floatX(np.random.uniform(-128, 128, (1, 3, IMAGE_W, IMAGE_W)))) x0 = ජනනය කරන ලද_image.get_value()astype("float64") xs සමඟින් ආරම්භ කරන්න. = xs.append(x0) # Optimize, i (8) පරාසය තුළ ප්‍රතිඵලය වරින් වර සුරකිමින්: print(i) scipy.optimize.fmin_l_bfgs_b(eval_loss, x0.flatten(), fprime=eval_grad, maxfun=40) x0 = generated_image.get_value().astype("float64") xs.append(x0)

අපි එවැනි ශ්‍රිතයක ප්‍රශස්තිකරණය ක්‍රියාත්මක කරන්නේ නම්, අපට ඉක්මනින් ඉලක්කයට සමාන රූපයක් ලැබෙනු ඇත. දැන් අපට යම් අන්තර්ගත රූපයක් මෙන් පෙනෙන සුදු ශබ්දයෙන් පින්තූර ප්‍රතිනිර්මාණය කළ හැක.

අන්තර්ගත අලාභය: conv4_2

ප්රශස්තකරණ ක්රියාවලිය

ප්‍රති result ලය වන රූපයේ ලක්ෂණ දෙකක් හඳුනා ගැනීම පහසුය:

නැතිවූ වර්ණ - මෙය එහි ප්‍රති result ලයයි නිශ්චිත උදාහරණයක් conv4_2 ස්තරය පමණක් භාවිතා කර ඇත (හෝ, වෙනත් වචන වලින් කිවහොත්, w බර ඒ සඳහා ශුන්‍ය නොවන අතර අනෙක් ස්ථර සඳහා ශුන්‍ය විය); ඔබට මතක ඇති පරිදි, එය වර්ණ සහ අනුක්‍රමණ සංක්‍රාන්ති පිළිබඳ තොරතුරු අඩංගු මුල් ස්ථර වන අතර පසුව ඒවා විශාල විස්තර පිළිබඳ තොරතුරු අඩංගු වේ, එය අප නිරීක්ෂණය කරන දෙයයි - වර්ණ නැති වී ඇත, නමුත් අන්තර්ගතය එසේ නොවේ;
සමහර නිවාස "අපි යමු", i.e. සරල රේඛා තරමක් වක්‍ර වේ - මෙයට හේතුව ස්ථරය ගැඹුරු වන බැවිනි අඩු තොරතුරුඑහි අඩංගු අංගයේ අවකාශීය පිහිටීම ගැන (කැළීම් සහ සංචිත යෙදීමේ ප්‍රතිඵලය).

මුල් ස්ථර එකතු කිරීම වහාම වර්ණ සමඟ තත්ත්වය නිවැරදි කරයි.

අන්තර්ගත අලාභය: conv1_1, conv2_1, conv4_2

සුදු පැහැති ඝෝෂාකාරී රූපයට නැවත අඳින දේ පිළිබඳව ඔබට පාලනයක් ඇති බවට මේ වන විට ඔබට හැඟීමක් ඇති වී ඇතැයි බලාපොරොත්තු වෙමු.

ශෛලිය අහිමි වීම

දැන් අපි වඩාත් සිත්ගන්නාසුළු වෙත පැමිණෙමු: අපට ශෛලිය ගෙන යා හැක්කේ කෙසේද? ශෛලිය යනු කුමක්ද? පැහැදිලිවම, Style එක අපි Content Loss වලදී ප්‍රශස්තිකරණය කළේ නැහැ, මොකද ඒකේ විශේෂාංගවල අවකාශීය පිහිටීම් ගැන ගොඩක් තොරතුරු අඩංගු වෙනවා.ඉතින් මුලින්ම කරන්න ඕන මේ තොරතුරු එක් එක් ලේයර් එකේ ලැබෙන views වලින් කොහොම හරි අයින් කරන එක.

කතුවරයා පහත ක්‍රමය යෝජනා කරයි. අපි යම් ස්ථරයක ප්‍රතිදානයේදී ටෙන්සරය ගනිමු, එය අවකාශීය ඛණ්ඩාංකවල පුළුල් කර තහඩු අතර කෝවිරියන්ස් න්‍යාසය ගණනය කරමු. මෙම පරිවර්තනය මෙසේ දක්වමු ජී. ඇත්තටම අපි මොනවද කරලා තියෙන්නේ? තහඩුව තුළ ඇති ලක්ෂණ යුගල වශයෙන් කොපමණ වාරයක් සිදුවේදැයි අපි ගණනය කළ බව අපට පැවසිය හැකිය, නැතහොත්, වෙනත් වචනවලින් කිවහොත්, බහුවිචල්‍ය සාමාන්‍ය ව්‍යාප්තියක් සහිත තහඩු වල ලක්ෂණ බෙදා හැරීම අපි ආසන්න කළෙමු.

එවිට Style Loss පහත පරිදි ඇතුලත් කර ඇත, එහිදී sවිලාසය සහිත යම් රූපයක් වේ:

අපි වින්සන්ට් වෙනුවෙන් උත්සාහ කරමුද? ප්‍රතිපත්තිමය වශයෙන්, අපට අපේක්ෂිත දෙයක් ලැබේ - වැන් ගොග්ගේ ශෛලියේ ශබ්දය, විශේෂාංගවල අවකාශීය සැකැස්ම පිළිබඳ තොරතුරු සම්පූර්ණයෙන්ම නැති වී යයි.

වින්සන්ට්

අපි style image එකක් වෙනුවට photo එකක් දැම්මොත්? ඔබ දැනටමත් හුරුපුරුදු ලක්ෂණ, හුරුපුරුදු වර්ණ ලබා ගනී, නමුත් අවකාශීය තත්ත්වය සම්පූර්ණයෙන්ම නැති වී යයි.

ශෛලිය අහිමි ඡායාරූපය

අපි covariance matrix ගණනය කරන්නේ ඇයි, සහ වෙනත් දෙයක් නොවේදැයි ඔබ කල්පනා කළාද? සියල්ලට පසු, අවකාශීය ඛණ්ඩාංක නැති වන පරිදි විශේෂාංග එකතු කිරීමට බොහෝ ක්රම තිබේ. මෙය සැබවින්ම විවෘත ප්රශ්නයක් වන අතර, ඔබ ඉතා සරල දෙයක් ගතහොත්, ප්රතිඵලය නාටකාකාර ලෙස වෙනස් නොවේ. අපි මෙය පරීක්ෂා කරමු, අපි covariance matrix ගණනය නොකරමු, නමුත් සරලව එක් එක් තහඩුවෙහි සාමාන්ය අගය.

සරල ශෛලිය අහිමි වීම

ඒකාබද්ධ පාඩුව

ස්වාභාවිකවම, මෙම පිරිවැය කාර්යයන් දෙක මිශ්ර කිරීමට ආශාවක් ඇත. එවිට අපි සුදු ඝෝෂාවෙන් එවැනි රූපයක් ජනනය කරන්නෙමු, එය අන්තර්ගත-රූපයේ (අවකාශීය ඛණ්ඩාංකවලට බැඳී ඇති) විශේෂාංග රඳවා තබා ගන්නා අතර, අවකාශීය ඛණ්ඩාංකවලට බැඳී නැති "ශෛලිය" විශේෂාංග ද ඇත, එනම්. අන්තර්ගත රූප විස්තර නොවෙනස්ව තබා ගැනීමට අපි බලාපොරොත්තු වෙමු, නමුත් නිවැරදි ශෛලියෙන් නැවත අඳින්නෙමු.

ඇත්ත වශයෙන්ම, නිත්‍යකරණයක් ද ඇත, නමුත් සරල බව සඳහා අපි එය මඟහරිමු. එය පිළිතුරු දීමට ඉතිරිව ඇත ඊළඟ ප්රශ්නය: ප්‍රශස්තකරණය සඳහා භාවිතා කළ යුතු ස්ථර (බර) මොනවාද? මෙම ප්‍රශ්නයට පිළිතුරක් මා සතුව නොමැති අතර ලිපියේ කතුවරුන්ටද පිළිතුරක් නොමැති බව මම බිය වෙමි. පහත සඳහන් දෑ භාවිතා කිරීමට ඔවුන්ට යෝජනාවක් ඇත, නමුත් මෙයින් අදහස් කරන්නේ වෙනත් සංයෝජනයක් නරක අතට හැරෙනු ඇති බවයි විශාල ඉඩක්සෙවීම. ආකෘතියේ අවබෝධයෙන් අනුගමනය කරන එකම රීතිය නම්, අසල්වැසි ස්ථර ගැනීමට කිසිදු තේරුමක් නැත, මන්ද ඒවායේ සලකුණු එකිනෙකින් බොහෝ වෙනස් නොවනු ඇත, එබැවින් එක් එක් conv*_1 කාණ්ඩයෙන් ස්ථරයක් ශෛලියට එකතු වේ.

# අලාභ ශ්‍රිත පාඩු නිර්වචනය කරන්න = # අන්තර්ගත අලාභ පාඩු (0.2e6 * style_loss(art_features, gen_features, "conv2_1")) losses.append(0.2e6 * style_loss(art_features, gen_features, "conv3_1")) losses.append(0.2e6 *gen_logs,"art_features_1) ) පාඩු.

අවසාන ආකෘතිය පහත ආකාරයෙන් ඉදිරිපත් කළ හැකිය.

ඒවගේම වැන්ගෝ සමඟ ගෙවල්වල ප්‍රතිඵලය මෙන්න.

ක්රියාවලිය පාලනය කිරීමට උත්සාහ කරන්න

අපි කලින් කොටස් මතක තබා ගනිමු, වත්මන් ලිපියට වසර දෙකකට පෙර, අනෙකුත් විද්යාඥයින් ස්නායුක ජාලය සැබවින්ම ඉගෙන ගන්නා දේ ගවේෂණය කර ඇත. මෙම සියලු ලිපි වලින් සන්නද්ධව, ඔබට විශේෂාංග දෘශ්‍යකරණයන් ජනනය කළ හැක. විවිධ මෝස්තර, විවිධ රූප, විවිධ විභේදන සහ ප්‍රමාණ, සහ කුමන බරක් ගත යුතුද යන්න තේරුම් ගැනීමට උත්සාහ කරන්න. නමුත් ස්ථර නැවත බර කිරීම පවා සිදුවන්නේ කුමක්ද යන්න පිළිබඳ පූර්ණ පාලනයක් ලබා නොදේ. මෙහි ගැටලුව වඩාත් සංකල්පීය ය: අපි වැරදි ක්‍රියාකාරිත්වය ප්‍රශස්ත කරනවා! එසේ වන්නේ කෙසේද, ඔබ අසන්නේ? පිළිතුර සරලයි: මෙම කාර්යය ඉතිරිව ඇති දේ අවම කරයි ... හොඳයි, ඔබට අදහස ලැබේ. නමුත් අපට ඇත්තටම අවශ්‍ය වන්නේ අපි රූපයට කැමති වීමයි. අන්තර්ගතයේ සහ ශෛල අලාභ ශ්‍රිතවල උත්තල සංකලනය අපගේ මනස සුන්දර යැයි සලකන දේ පිළිබඳ මිනුමක් නොවේ. දිගු කලක් මෝස්තර කිරීම දිගටම කරගෙන ගියහොත්, පිරිවැය කාර්යය ස්වභාවිකවම පහත වැටේ, නමුත් ප්රතිඵලයේ සෞන්දර්යාත්මක අලංකාරය තියුනු ලෙස පහත වැටේ.

හරි, තව එක ප්‍රශ්නයක් තියෙනවා. අපි හිතමු අපිට අවශ්‍ය ෆීචර්ස් උකහා ගන්න ලේයරයක් හම්බුනා කියලා. සමහර වයනය ත්‍රිකෝණාකාර යැයි කියමු. නමුත් මෙම ස්තරය තුළ තවමත් රවුම් වැනි තවත් බොහෝ විශේෂාංග අඩංගු වන අතර, ඒවා ප්‍රතිඵලයක් ලෙස ලැබෙන රූපයේ අපට දැකීමට අවශ්‍ය නැත. සාමාන්‍යයෙන් කතා කරන්නේ නම්, අපට චීන ජාතිකයන් මිලියනයක් බඳවා ගත හැකි නම්, අපට මෝස්තර රූපයක සියලුම අංග දෘශ්‍යමාන කළ හැකි අතර, සම්පූර්ණ සෙවීමෙන් අපට අවශ්‍ය ඒවා සලකුණු කර ඒවා පිරිවැය කාර්යයට පමණක් ඇතුළත් කළ හැකිය. නමුත් පැහැදිලි හේතු නිසා එය එතරම් පහසු නැත. නමුත් ප්‍රතිඵලයේ දිස්වීමට අවශ්‍ය නොවන සියලුම කව අපි මෝස්තර පත්‍රයෙන් ඉවත් කළහොත් කුමක් කළ යුතුද? එවිට රවුම් වලට ප්රතිචාර දක්වන අනුරූප නියුරෝන සක්රිය කිරීම සරලව ක්රියා නොකරනු ඇත. තවද, ඇත්ත වශයෙන්ම, මෙය ප්රතිඵලය පින්තූරයේ නොපෙන්වයි. මල් වලත් එහෙමයි. වර්ණ රාශියක් සහිත දීප්තිමත් රූපයක් ඉදිරිපත් කරන්න. වර්ණ බෙදා හැරීම අවකාශය පුරා බෙහෙවින් ආලේප කරනු ඇත, ප්රතිඵලයක් ලෙස රූපයේ බෙදා හැරීම සමාන වනු ඇත, නමුත් ප්රශස්තිකරණ ක්රියාවලියේදී, මුල් පිටපතෙහි තිබූ එම උච්ච බොහෝ විට අහිමි වනු ඇත. බිට් ගැඹුරේ සරල අඩුවීමක් බව පෙනී ගියේය වර්ණ පුවරුවමෙම ගැටළුව විසඳයි. බොහෝ වර්ණවල බෙදාහැරීමේ ඝනත්වය ශුන්‍යයට ආසන්න වන අතර ප්‍රදේශ කිහිපයක විශාල කඳු මුදුන් පවතිනු ඇත. මේ අනුව, Photoshop හි මුල් පිටපත හසුරුවමින්, අපි රූපයෙන් උපුටා ගන්නා ලක්ෂණ හසුරුවමු. ගණිතයේ භාෂාවෙන් ඒවා සකස් කිරීමට උත්සාහ කරනවාට වඩා පුද්ගලයෙකුට තම ආශාවන් දෘශ්යමය වශයෙන් ප්රකාශ කිරීම පහසුය. ආයුබෝවන්. එහි ප්‍රතිඵලයක් වශයෙන්, ෆොටෝෂොප් සහ විශේෂාංග දෘශ්‍යමාන කිරීම සඳහා ස්ක්‍රිප්ට් වලින් සන්නද්ධ වූ නිර්මාණකරුවන් සහ කළමනාකරුවන්, ගණිතඥයින් සහ ක්‍රමලේඛකයින් කළ දේට වඩා තුන් ගුණයක වේගවත් ප්‍රතිඵල ලබා ගත්හ.

විශේෂාංගවල වර්ණය සහ ප්‍රමාණය හැසිරවීමේ උදාහරණයක්

තවද ඔබට වහාම සරල රූපයක් විලාසිතාවක් ලෙස ගත හැකිය

ප්රතිපල

මෙන්න vidosik, නමුත් නිවැරදි වයනය සමඟ පමණි

වයනය ජාල: වයනය සහ ශෛලීගත රූප සංග්‍රහය ඉදිරියට ගෙන යාම (2016 මාර්තු 10)

එක් සූක්ෂ්මතාවයක් නොවේ නම් මෙය නැවැත්විය හැකි බව පෙනේ. ඉහත ස්ටයිලිං ඇල්ගොරිතම ඉතා දිගු කාලයක් ක්රියා කරයි. අපි CPU මත lbfgs ක්‍රියාත්මක වන ක්‍රියාත්මක කිරීමක් ගතහොත්, ක්‍රියාවලිය විනාඩි පහක් පමණ ගත වේ. ප්‍රශස්තිකරණය GPU වෙත යන පරිදි ඔබ එය නැවත ලියන්නේ නම්, එම ක්‍රියාවලිය තත්පර 10-15ක් ගතවේ. ඒක හොඳ නැහැ. සමහරවිට මේකේ සහ ඊළඟ ලිපියේ කතුවරුන් ඒ ගැනම හිතුවා. ප්‍රකාශන දෙකම ස්වාධීනව දින 17 ක පරතරයකින්, පෙර ලිපියෙන් වසරකට පමණ පසුව නිකුත් විය. වත්මන් ලිපියේ කතුවරුන්, පෙර ලිපියේ කතුවරුන් මෙන්, වයනය උත්පාදනය කිරීමේ නිරතව සිටියහ (ඔබ ස්ටයිල් ලොස් නැවත සකසන්නේ නම්, ඔබට ලැබෙන්නේ දළ වශයෙන් මෙයයි). ඔවුන් යෝජනා කළේ සුදු ශබ්දයෙන් ලබාගත් රූපයක් නොව ශෛලීගත රූපයක් ජනනය කරන ස්නායුක ජාලයක් ප්‍රශස්ත කිරීමට ය.

දැන්, මෝස්තර කිරීමේ ක්‍රියාවලියට කිසිදු ප්‍රශස්තකරණයක් ඇතුළත් නොවේ නම්, ඉදිරියට යාමක් පමණක් සිදු කළ යුතුය. උත්පාදක ජාලය පුහුණු කිරීම සඳහා ප්‍රශස්තිකරණය අවශ්‍ය වන්නේ එක් වරක් පමණි. මෙම ලිපිය පහත දැක්වෙන සෑම තැනකම ධූරාවලි උත්පාදකයක් භාවිතා කරයි zපෙර එකට වඩා විශාල වන අතර වයනය උත්පාදනය කිරීමේදී ශබ්දයෙන් සහ ස්ටයිලයිසර් පුහුණුව සඳහා සමහර රූප දත්ත ගබඩාවෙන් සාම්පල ලබා ගනී. Imagenet හි පුහුණු කොටස හැර වෙනත් දෙයක් භාවිතා කිරීම ඉතා වැදගත් වේ, මන්ද Loss-network තුළ ඇති විශේෂාංග ගණනය කරනු ලබන්නේ පුහුණු කොටසෙහි පමණක් පුහුණු කරන ලද ජාලය මගිනි.

තත්‍ය කාලීන විලාස හුවමාරුව සහ සුපිරි විභේදනය සඳහා ප්‍රත්‍යක්ෂ පාඩු (2016 මාර්තු 27)

නමට අනුව, ජනන ජාලයක් පිළිබඳ අදහස සමඟ දින 17 ක් ප්‍රමාද වූ කතුවරුන්, පින්තූර විභේදනය වැඩි කිරීමේ කාර්යබහුල විය. නවතම ඉමේජ්නෙට් හි ඉතිරි ඉගෙනීමේ සාර්ථකත්වයෙන් ඔවුන් ආභාෂය ලැබූ බව පෙනේ.

ඒ අනුව අවශේෂ බ්ලොක් සහ පරිවර්තන වාරණ.

මේ අනුව, මෝස්තර පාලනයට අමතරව, අපි දැන් අපගේ අතේ වේගවත් උත්පාදක යන්ත්රයක් ඇත (මෙම ලිපි දෙකට ස්තූතියි, එක් රූපයක් සඳහා උත්පාදන කාලය ms දස දහස් ගණනකින් මනිනු ලැබේ).

අවසන්

පළමු වීඩියෝ මෝස්තර යෙදුම සඳහා වෙනත් මෝස්තර යෙදුමක් නිර්මාණය කිරීමේ ආරම්භක ලක්ෂ්‍යයක් ලෙස අපි සමාලෝචනය කරන ලද ලිපිවල තොරතුරු සහ කතුවරුන්ගේ කේතය භාවිතා කළෙමු:

මේ වගේ දෙයක් ජනනය කරන්න.

2015 අගෝස්තු මාසයේ සිට, Tübingen විශ්ව විද්‍යාලයේ ජර්මානු පර්යේෂකයන් විලාසිතා මාරු කිරීමේ හැකියාව පිළිබඳව ඔවුන්ගේ අදහස් ඉදිරිපත් කළහ. ප්රසිද්ධ කලාකරුවන්වෙනත් ඡායාරූපවල, මෙම අවස්ථාවෙන් මුදල් ඉපැයූ සේවාවන් දර්ශනය වීමට පටන් ගත්තේය. එය බටහිර වෙළඳපොලේ දියත් කරන ලද අතර රුසියානු වෙළඳපොලේ - එහි සම්පූර්ණ පිටපත.

පිටු සලකුණු වලට

Ostagram දෙසැම්බර් මාසයේදී දියත් කළද, එය අප්‍රේල් මැද භාගයේදී සමාජ ජාල වල ඉක්මනින් ජනප්‍රිය වීමට පටන් ගත්තේය. ඒ අතරම, අප්රේල් 19 වන විට VKontakte හි ව්යාපෘතියේ දහසකට වඩා අඩු පිරිසක් සිටියහ.

සේවාව භාවිතා කිරීම සඳහා, ඔබ පින්තූර දෙකක් සකස් කළ යුතුය: සැකසිය යුතු ඡායාරූපයක් සහ මුල් ඡායාරූපය මත උඩින් තැබීම සඳහා ශෛලියක උදාහරණයක් සහිත පින්තූරයක්.

සේවාවට නොමිලේ අනුවාදයක් ඇත: එය රූපයේ දිගම පැත්ත දිගේ පික්සල 600 දක්වා අවම විභේදනයකින් රූපයක් නිර්මාණය කරයි. ඡායාරූපයට පෙරහන යෙදීමේ එක් පුනරාවර්තනයක ප්‍රති result ලය පරිශීලකයාට ලැබේ.

ගෙවන අනුවාද දෙකක් ඇත: වාරිකය දිගම පැත්තේ පික්සල 700 ක් දක්වා රූපයක් නිපදවන අතර රූපයට ස්නායුක ජාල සැකසීමේ පුනරාවර්තන 600 ක් යොදයි (වැඩි පුනරාවර්තන, වඩාත් රසවත් හා තීව්‍ර ලෙස සැකසීම). එවැනි එක් පින්තූරයකට රුබල් 50 ක් වැය වේ.

HD අනුවාදයේ, ඔබට පුනරාවර්තන ගණන සකස් කළ හැකිය: 100 සඳහා රුබල් 50 ක් සහ 1000 - 250 රූබල්. මෙම අවස්ථාවෙහිදී, රූපයේ දිගම පැත්තේ පික්සල 1200 ක් දක්වා විභේදනයක් ඇති අතර, එය කැන්වසය මත මුද්රණය කිරීම සඳහා භාවිතා කිරීමට හැකි වනු ඇත: Ostagram මෙම සේවාව රූබල් 1800 සිට බෙදා හැරීම සමඟ ලබා දෙයි.

පෙබරවාරියේදී, Ostagram හි නියෝජිතයින් "සංවර්ධිත ධනවාදය සහිත රටවලින්" පරිශීලකයින්ගෙන් රූප සැකසීම සඳහා ඉල්ලීම් පිළිගන්නේ නැත, නමුත් පසුව ලොව පුරා සිටින VKontakte පරිශීලකයින් සඳහා ඡායාරූප සැකසීමට ප්‍රවේශය ලබා දෙනු ඇත. GitHub හි ප්‍රකාශයට පත් කරන ලද Ostagram කේතය අනුව විනිශ්චය කිරීම, එය Nizhny Novgorod හි පදිංචි 30 හැවිරිදි Sergey Morugin විසින් වර්ධනය කරන ලදී.

TJ සම්බන්ධ විය වාණිජ අධ්යක්ෂව්‍යාපෘතිය, හඳුන්වා දුන්නේ Andrey විසිනි. ඔහුට අනුව, Ostagram Instapainting ඉදිරියේ පෙනී සිටි නමුත් Vipart නම් සමාන ව්‍යාපෘතියකින් ආභාෂය ලැබීය.

Ostagram NNSTU හි සිසුන් පිරිසක් විසින් සංවර්ධනය කරන ලදී. Alekseeva: 2015 අවසානයේ පටු මිතුරන් කණ්ඩායමක් පිළිබඳ මූලික පරීක්ෂණයෙන් පසුව, ඔවුන් ව්යාපෘතිය ප්රසිද්ධ කිරීමට තීරණය කළහ. මුලදී, රූප සැකසීම සම්පූර්ණයෙන්ම නොමිලේ වූ අතර, මුද්රිත සිතුවම් විකිණීමෙන් මුදල් උපයා ගැනීමට සැලසුම් කර ඇත. ඇන්ඩ්‍රේට අනුව, මුද්‍රණය විශාලම ගැටලුව බවට පත් විය: ස්නායුක ජාලයක් මඟින් සැකසූ පුද්ගලයින්ගේ ඡායාරූප කලාතුරකින් ප්‍රසන්න ලෙස පෙනේ. මිනිස් ඇස, සහ අවසන් සේවාලාභියා විසින් කැන්වසයට යෙදීමට පෙර දිගු කාලයක් සඳහා ප්රතිඵලය සකස් කිරීමට අවශ්ය වන අතර, යන්ත්ර සම්පත් ගොඩක් අවශ්ය වේ.

රූප සැකසීම සඳහා, Ostagram හි නිර්මාතෘවරුන්ට Amazon cloud servers භාවිතා කිරීමට අවශ්‍ය වූ නමුත්, පරිශීලකයින්ගේ පැමිණීමෙන් පසුව, ආයෝජනයේ අවම ප්‍රතිලාභයක් සමඟ දිනකට ඩොලර් දහසක් ඉක්මවන බව පැහැදිලි විය. ව්‍යාපෘතියේ ආයෝජකයෙකු ද වන ඇන්ඩ්‍රි, නිශ්නි නොව්ගොරොඩ් හි සේවාදායක පහසුකම් කුලියට ගත්තේය.

ව්‍යාපෘතියේ ප්‍රේක්ෂකයින් දිනකට පුද්ගලයින් දහසක් පමණ වන නමුත් සමහර දිනවල එය සංක්‍රමණය වීම හේතුවෙන් පුද්ගලයින් 40,000 දක්වා ළඟා විය. විදේශීය මාධ්ය, ගෘහස්ථ ව්‍යාපෘතියට පෙර මෙම ව්‍යාපෘතිය දැනටමත් දැක ඇති අය (ඔස්ටග්‍රෑම් යුරෝපීය ඩීජේ සමඟ සහයෝගයෙන් කටයුතු කිරීමට පවා සමත් විය). රාත්‍රියේදී, තදබදය අඩු වූ විට, රූප සැකසීමට මිනිත්තු 5ක් ගත විය හැකි අතර දිවා කාලයේදී පැයක් දක්වා ගත වේ.

කලින් විදේශීය පරිශීලකයින් හිතාමතාම රූප සැකසීමට ප්රවේශය සීමා කර තිබේ නම් (එය රුසියාවෙන් මුදල් ඉපැයීම ආරම්භ කිරීමට සිතා ඇත), දැන් Ostagram දැනටමත් බටහිර ප්රේක්ෂකයින් මත වැඩි වශයෙන් රඳා පවතී.

අද දක්වා, ආපසු ගෙවීමේ අපේක්ෂාවන් කොන්දේසි සහිත ය. එක් එක් පරිශීලකයා සැකසීම සඳහා රූබල් 10 ක් ගෙවා ඇත්නම්, සමහර විට එය ගෙවනු ඇත. […]
අපේ රටේ මුදල් ඉපැයීම ඉතා අපහසුයි: අපේ ජනතාව සතියක් බලා සිටීමට සූදානම් නමුත් ඔවුන් ඒ සඳහා සතයක්වත් ගෙවන්නේ නැත. යුරෝපීයයන් මේ සඳහා වඩාත් හිතකර වේ - වේගවත් කිරීම සඳහා ගෙවීම, ගුණාත්මකභාවය වැඩිදියුණු කිරීම - එබැවින් දිශානතිය එම වෙළඳපොළට යයි.

Andrey, Ostagram නියෝජිත

Andrey ට අනුව, Ostagram කණ්ඩායම වැඩ කරමින් සිටී නව අනුවාදයසමාජීයත්වය කෙරෙහි දැඩි අවධානයක් යොමු කරන වෙබ් අඩවියක්: "එය එක් ප්‍රසිද්ධ සේවාවක් ලෙස පෙනෙනු ඇත, නමුත් කුමක් කළ යුතුද." රුසියාවේ ෆේස්බුක් හි නියෝජිතයින් දැනටමත් මෙම ව්යාපෘතිය ගැන උනන්දු වී ඇතත්, ගනුදෙනුව තවමත් විකිණීම පිළිබඳ සාකච්ඡාවලට පැමිණ නැත.

සේවා වැඩ උදාහරණ

Ostagram වෙබ් අඩවියේ ඇති සංග්‍රහයේ, අවසාන දර්ශනවල ප්‍රතිඵලය වූ රූප සංයෝජනය කුමක්දැයි ද ඔබට දැක ගත හැකිය: බොහෝ විට මෙය ප්‍රතිඵලයට වඩා රසවත් ය. ඒ සමගම, පෙරහන් - සැකසීම සඳහා බලපෑමක් ලෙස භාවිතා කරන පින්තූර - වැඩිදුර භාවිතය සඳහා සුරැකිය හැක.